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Chapter 1 


Conceitos Básicos 


1.1 O que é probabilidade? 


“As questões mais importantes da vida são, em grande parte, nada mais do que problemas de probabilidade.” 


“A Teoria da Probabilidade nada mais é do que o cálculo do bom senso.” — Pierre-Simon Laplace (1749-1827) 


O objetivo da Teoria da Probabilidade é modelar matematicamente conceitos como incerteza, risco, chance, 
possibilidade, verossimilhança, perspectivas e, até mesmo, sorte. Considere as seguintes frases do nosso dia-a-dia: 


e A probabilidade de uma moeda lançada “dar” coroa é de 50%; 


e A previsão do tempo é de 40% de probabilidade de chuva amanhã; 


A radiografia indica uma moderada probabilidade de Tromboembolia Pulmonar; 


O Copom afirma que aumentou a probabilidade da convergência da inflação para a trajetória de metas; 


Depois da rodada de ontem, a probabilidade do Flamengo ser rebaixado aumentou muito. 


Quase todos nós temos ao menos uma intuição do que estas frasem significam. No entanto, encontre a sua 
resposta para a seguinte pergunta: o que exatamente significa a palavra probabilidade? O que exatamente 
significam as frases acima? Pense nesta pergunta antes de ler os próximos parágrafos... 

Seguem aqui duas interpretações comuns do conceito de probabilidade (ambas levam à mesma formulação 
matemática — apenas as maneiras de expressar e interpretar os resultados mudam com o ponto-de-vista escolhido): 

A interpretação frequentista imagina um grande número de situações semelhantes à apresentada e tenta 
descobrir em quantas delas o evento em questão realmente acontece; esta proporção seria a probabilidade do 
evento. Assim, “dividindo o número de coroas obtidas pelo número de lançamentos, a proporção se aproximará 
de 50% à medida que o número de lançamentos cresce”. Esta interpretação pode precisar de um pouco de 
imaginação: “chove em 40% dos dias com características climáticas semelhantes às de amanhã”. 

A interpretação subjetiva (ou Bayesiana, ou epistemológica) diz que a probabilidade de um evento é 
apenas uma medida da fé que temos sobre a sua ocorrência. Assim, a probabilidade de um evento varia de 
indivíduo para indivíduo, dependendo das informações e crenças que ele tenha. Esta interpretação “maleável” 
nos permite discutir conceitos como a probabilidade de um evento passado ter ocorrido (como a probabilidade de 
uma pessoa ter cometido um crime). 

A Teoria da Probabilidade é apenas um modelo. Modelos não são “A REALIDADE” ou “A VERDADE”. 
Modelos são úteis exatamente porque simplificam a realidade para que possamos entendê-los?. Se soubéssemos 
exatamente as características físicas da moeda, sua posição e velocidade iniciais, e as forças nela aplicadas (pelo 
seu dedão, pela gravidade da Terra, pela resistência do ar, etc.) seríamos capazes de predizer com exatidão se a 


'Do matemático e mágico Persi Diaconis: “probabilidades não fazem parte das moedas; probabilidades fazem parte das pessoas”. 

?Num mapa de metrô, as estações aparecem alinhadas; o mapa não mostra todas as ruas, nem os jardins, nem a topografia da 
cidade. O mapa está errado? Não, o mapa é um modelo; ele é perfeito para a sua função (saber se a próxima estação é onde eu tenho 
que descer ou não), mas, se usado além de suas limitações (para planejar uma caminhada, por exemplo), ele falha miseravelmente. 
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moeda daria cara ou coroa”. Mas trabalhar com todas estas variáveis é impraticável! — é preferível inventar este 
“misterioso 50% de incerteza”, jogando fora os outros detalhes da realidade. Como lidamos com nossa própria 
a = A: š . ária = o RA F e E E 
incerteza e ignorância desde que nascemos, o conceito de probabilidade até que não é tão misterioso assim”. 


1.1.1 Interpretação Freqiientista: as moedas se compensam? 


Uma moeda justa deu 10 caras seguidas. Qual resultado é mais provável no próximo lançamento: cara ou coroa? 

Dizer que “esta moeda provavelmente é viciada” não é válido no problema proposto — afinal, partimos da 
hipótese de que a moeda é justa. Então, “cara” não é a resposta. 

Por outro lado, como a moeda é justa, a proporção ni 
(esta é a interpretação freqiientista, a ser justificada mais adiante pela Lei dos Grandes Números). Note: a 
longo prazo! Assim, não há necessidade alguma da moeda “compensar as 10 caras lançadas” logo no próximo 
lançamento. Então coroa também não é a resposta! 

Mas, se a proporção tem de se aproximar de 50%, mesmo a longo prazo, então no futuro as coroas vão ter que 
recuperar o terreno perdido para as caras, certo? Errado! Mesmo que nos próximos 2n lançamentos tivéssemos 
n caras e n coroas, a proporção nos 2n + 10 lançamentos se aproximaria de 50% para n grande. Afinal: 


| n 1 
im ——— = — 
n>oc In +10 2 


deve se aproximar de 50% a longo prazo 


O problema é que “a proporção se aproxima de 0.5” não é o mesmo que “o número de caras se aproxima da 
metade do número de lançamentos”! Considere o experimento de John Kerrich — um matemático sul-africano 
que, prisioneiro de guerra na Dinamarca durante a Segunda Guerra Mundial, lançou uma moeda 10000 vezes: 


Lançamentos 10 40 100 200 400 800 2000 8000 10000 
Caras 4 21 44 98 199 413 1013 4034 5067 
Acima do Esp. —1 1 —6 -2 —1 13 13 34 67 
Proporção 0.4 0.525 0.44 0.49 0.4975 0.5163 0.5065 0.5043 0.5067 


0.6 


LA a 
10! 10? LOS 104 


Note como o número de caras acima do “esperado” parece oscilar e aumentar com o número de lança- 
mentos. Isto não contradiz a Interpretação Fregiientista: as proporções estão se aproximando de 0.5. 


3Ou pelo menos é isso que a Física Clássica diria. Já a Mecânica Quântica (um dos pilares da Física Moderna) diria que as 
partículas que compõem o universo não estão em lugar algum — elas têm probabilidades de estar em lugares distintos ao mesmo 
tempo. Esta incerteza não seria devida à nossa incapacidade de criar instrumentos para medi-las, mas seria uma característica 
intrínseca da natureza do universo. Assim, é impossível ter conhecimento completo sobre o estado atual do universo — ou seja, há 
uma parcela de chance em todos os fenômenos físicos. Difícil de engolir? Você não está sozinho: até Einstein tinha dificuldades de 
aceitar este modelo, dizendo estar “convencido de que Deus não joga dados”. Apesar disto, a Mecânica Quântica explica fenômenos 
observáveis que contradizem frontalmente a Física Clássica de Newton! 

* Quase impraticável: no artigo “Dynamical Bias in the Coin Toss” (2004), Diaconis, Holmes e Montgomery analisam mais 
cuidadosamente o processo de lançar uma moeda e pegá-la com a mão. Conclusão do artigo: se a moeda mostrava cara no início do 
lançamento, a probabilidade de mostrar cara ao final é cerca de 50.8%! 

5A pergunta realmente misteriosa é a seguinte: por que os conceitos básicos formais da Teoria da Probabilidade só aparecem 
no século XVII, quando Pascal e Fermat começaram sua célebre correspondência a respeito de jogos de azar? Afinal, ignorância, 
incerteza e jogos de azar existem há mais de 5000 anos... 

6 Matematicamente, se f (n) é o número de caras em n lançamentos: 

f(n) 


lim =—— = — não significa que lim (f (n) — =) =0 
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1.2 Modelos de Probabilidade 


Considere um experimento qualquer cujo resultado não seja conhecido (ou seja, um experimento aleatório). 
Chamaremos de espaço amostral o conjunto de todos os resultados possíveis deste experimento”, comumente 
denotado por S. Um evento é representado por um subconjunto qualquer de S; diz-se que um evento ocorre se 
algum de seus elementos foi o resultado. 


Exemplo 1 Lança-se um dado e observa-se a face que cai voltada para cima. O espaço amostral é S = 
(1,2,3,4,5,6!. Alguns eventos (que serão utilizados no resto desta seção) são: 

A =“Ã“o número observado é par”= {2,4,6} 

B = “o número observado é maior do que 3"=(4,5,6) 

C = “o número observado é maior do que 4”={5, 6} 

Note que, se o resultado for 6, todos estes três eventos ocorrem. 


A partir de eventos quaisquer, podemos construir novos eventos usando as operações de complemento, união 
e interseção: 


e A éo evento “A NÃO ocorre”: 
e AU B éo evento “A ocorre OU B ocorre”; 


e AN B éo evento “A ocorre E B ocorre”. 


Exemplo 2 Usando a notação do exemplo anterior: 

A = {1,3,5} = “o número observado não é par” 

AU B = {2,4,5,6} = “o número é par ou maior do que 3” 
AN B = {4,6} = “o número é par e é maior do que 3”. 


Definição 3 Dois eventos A e B são chamados de mutuamente excludentes se não podem ocorrer simultane- 
amente, isto é, se AN B = 6. 


Exemplo 4 X e X são sempre mutuamente excludentes; no exemplo anterior, C e {1,2} são mutuamente 
excludentes — o número não pode ser maior do que 4 e menor do que 3 simultaneamente. 


Associaremos a cada evento um número, que chamaremos de probabilidade do evento e que traduzirá nossa 
confiança na capacidade do evento ocorrer. 


Definição 5 Uma probabilidade é uma função que associa a cada evento A um número Pr (A) de forma que: 
i) Para todo evento A, 0 < Pr(A) < 1; 

ii) Pr(S) = 1; 

iii) Se A e B são eventos mutuamente excludentes então? 


Pr(AUB) = Pr (A) + Pr (B) 


Não é difícil ver que, para atribuir probabilidades a um espaço amostral finito, basta atribuir probabilidades 
a cada um de seus eventos elementares (representados por conjuntos com um único elemento). 


Exemplo 6 Se acreditarmos que o dado é justo (todas as faces têm a mesma chance), então usaríamos 


Pr((1) = Pr ({2}) = Pr((3)) = Pr((4)) = Pr ({5}) = Pr {6} = 5. 


"Ao listar um espaço amostral, é importante que todos os resultados sejam listados, e que nenhum deles apareça mais de uma vez. 
8Para espaços amostrais infinitos, deveríamos incluir uma condição semelhante com infinitos eventos mutuamente excludentes dois 
a dois: 


Pr (Aı JA Us) = Pr (A1) + Pr (A2) +... 
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Neste caso, teríamos 


Pr(A) = Prije Pr + Pr(f6D = i i = = : = E = 50% 
Pr(B) = Pr(f4)) + Pr(45)) + Pr(46) = E E à = E = 5 = 50% 
Pr(C) = Pr({5})+Pr({6}) =i +i = z = Í = 33.333...% 


Mas, se você acredita que o dado é viciado, nada impede que você use outros modelos. Por exemplo, talvez eu 
acredite em 


Pr({2}) = Pr((3)) = Pr ({4}) = Pr ({5}) = 10% 
Pr({1}) = 20%; Pr ({6}) = 40% 


(caso em que o dado não é justo). Fica a cargo do leitor ver como as probabilidades de A, B e C se alteram neste 
caso para 60%, 60% e 50%. 


As demonstrações das seguintes propriedades do cálculo de probabilidades são simples e deixadas como exer- 
cício para o leitor: 


Proposição 7 (Lei do Complemento) Pr (A) = 1—Pr (A). Em outras palavras, a probabilidade de um evento 
ocorrer mais a probabilidade de ele não ocorrer dá 100%. 


Proposição 8 Pr (Ø) = 0, isto é, se um evento é impossível, sua probabilidade deve ser 0. 
Proposição 9 (Lei da Adição) 


Pr (AU B) = Pr (A) +Pr(B)-—Pr(AN B) 


isto é, a probabilidade de A ou B ocorrer é a probabilidade de A ocorrer, mais a probabilidade de B ocorrer, menos 
a probabilidade de A e B ocorrerem (pois esta “havia sido contada duas vezes”!). 


Exemplo 10 Nos exemplos anteriores, tínhamos A = {1,3,5}, AU B = {2,4,5,6} e AN B = {4,6}. Se o dado 
for justo, teremos: 


Pr(A) = Ž -50% = 1- Pr (A) 
Pr(AU B) = -= p Z = Pr (A) +Pr(B) -Pr (AN B) 


Se o dado for viciado como descrito no exemplo anterior, então teríamos 


Pr(A) = 20% + 10% + 10% = 40% = 1 — Pr (A) 
Pr (AU B) 10% + 10% + 10% + 40% = 70% = 
Pr (A) + Pr (B) — Pr (AN B) = (10% + 10% + 40%) + (10% + 10% + 40%) — (10% + 40%) = 70% 


e as leis continuam valendo. 


Da Lei da Adição, note que 


Pr(AUB)=Pr(4)+Pr(B) & Pr(ANB)=0 


ou seja, você pode somar probabilidades apenas no caso em que os eventos sejam mutuamente excludentes” 
(bom, e quando você quiser calcular Pr (AU B), a probabilidade de pelo menos um deles ocorrer). 


9 Tecnicamente, isto não é bem verdade — mais tarde veremos que há eventos de probabilidade O que podem acontecer, e assim 
Pr(AN B) = 0 não significa necessariamente “mutuamente excludentes”... Voltaremos a esta discussão no momento apropriado. 
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Exemplo 11 Numa rotina clássica dos trapalhões, Didi argumenta que, sendo sua jornada apenas de 8 horas 


diárias, ele não precisa trabalhar nos outros p do tempo do ano. Mas ele também não precisa trabalhar durante 


2 do ano (finais de semana), e a lei lhe garante um mês de férias - outros $ do ano em que não se trabalha. 
Somando tudo, a probabilidade do Didi não trabalhar num dia escolhido a esmo seria Z + 2 + + = a, o que já 
deu mais de 100% (sem contar feriados, hora do almoço, Copa do Mundo, etc.)! Assim, o patrão do Didi tem que 
deixá-lo em casa o ano todo e ainda lhe pagar hora extra... Onde está o erro? Ora, não se podem simplesmente 
somar estas proporções pois os eventos não são mutuamente excludentes! Por exemplo, Didi contou horas de 


dormir, em finais de semana, durante as férias, três vezes! 


Um modelo equiprobabilístico num espaço amostral S com n elementos associa a cada evento elementar 
a probabilidade Ł, Se o modelo é equiprobabilístico, então a probabilidade de um evento é simplesmente! 


A “má E ad aerian 
Pr (A) — #(A) — “número de casos favoráveis 


H(S) “número de casos totais” 


Nota 12 Cuidado! Um erro muito muito muito comum é usar esta fórmula (ou este tipo de raciocínio) para mode- 
los que não são equiprobabilísticos! Só porque o seu espaço amostral é S = (ganho na loteria, não ganho na loteria} 
não significa que você tem 50% de chance de ganhar na loteria! Mais na frente veremos problemas (como o de 
Monty Hall) onde nossa intuição tem uma vontade terrível de fazer este tipo de raciocínio — e nossa intuição erra 
redondamente. 


1.2.1 Exercícios 


Ex. 1 Defina espaços amostrais razoáveis para os seguintes experimentos: 

a) Jogue uma moeda três vezes e anote a segiência de caras (K) e coroas (C). 

b) Jogue dois dados e anote a soma de seus pontos. 

c) Jogue dois dados e anote a diferença de seus pontos. 

d) Jogue um dado até que o número 6 apareça e anote quantas vezes ele foi jogado. 
e) Jogue uma moeda 100 vezes e anote quantas caras foram obtidas. 

f) Tire 6 bolas de uma urna com 100 bolas azuis e 200 bolas brancas e anote quantas bolas brancas foram retiradas. 
9) Anote o lanterna do próximo campeonato brasileiro. 

h) Anote o instante em que você recebe a primeira ligação telefônica do dia. 

i) Anote a temperatura máxima do dia no seu quarto. 

Em quais dos exemplos a-g acima é razoável usar um modelo egiiprovável? 


Ex. 2 A partir dos três axiomas básicos da Probabilidade: 


Para todo evento A : O<Pr(A)<1I; 
Para o espaço amostral S : Pr(S)=1; 
Para quaisquer eventos mutuamente excludentes A e B : Pr(AUB)=Pr(A)+Pr(B) 


Demonstre as seguintes propriedades: 

a) A Lei do Complemento: Pr (A) = 1 — Pr (A) /Dica: A e A são mutuamente excludentes.] 

b) Pr (Ø) = 0 /Dica: use o item anterior./ 

c) A Lei da Adição: Pr(AU B) = Pr (A)+Pr (B)—Pr (AN B) /Dica: B-A e ANB são mutuamente excludentes, 
assim como B — A e A.J 

d) Se A C B então Pr (A) < Pr (B) /Dica: B — A e A são...] 


Ex. 3 Mostre que 
Pr(AU BUC) =Pr(A)+Pr(B)+Pr(C)-—Pr(AN B)-Pr(ANC)-Pr(BAC)+Pr(AABAC). 
Ex. 4 Dados Pr (A) = 0.4, Pr (B) = 0.5, Pr (C) = 0.3, Pr (AN B) = 0.3, Pr(ANC) = 0 e Pr(BA C) = 0.1, 


determine: 
a) Pr(AA BAC) 


10Dado um conjunto X, a notação # (X) representa o número de elementos de X. 
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Ex. 5 Em certa escola a probabilidade de um aluno ser torcedor do Flamengo é 0,6, de assistir novela é 0,7 
e de gostar de praia é 0,8. Entre que valores está compreendida a probabilidade de um aluno dessa escola, 
simultaneamente, torcer pelo Flamengo, assistir novela e gostar de praia? 


Ex. 6 Lança-se uma moeda justa três vezes e anota-se a segiência de Caras (K) e Coroas (C) obtidas. 

a) Que modelo de probabilidade lhe parece razoável em S? 

Sejam A o evento “dois primeiros resultados são iguais”, B o evento “o primeiro lançamento é uma cara” e C 
o evento “pelo menos um lançamento é uma cara”. 

b) Escreva A, B e C como subconjuntos de S e calcule as probabilidades de cada um. 

c) Interprete os seguintes eventos em linguagem comum e calcule as suas probabilidades: 

i) A ii) O iii) AN B iv) BAC v) BUC vi) AUB. 


Ex. 7 Lança-se uma moeda justa até obter-se duas caras ou duas coroas, não necessariamente consecutivas (ou 
seja, Kuerten e Coria disputam uma partida de tênis em três sets e têm chances iguais de vencer cada set). 
Anota-se a seqüência obtida (os vencedores de cada set). Repita os itens a-c do exercício anterior. Que respostas 
mudaram? 


Ex. 8 Dois dados são lançados — um vermelho e um verde. Escreva um espaço amostral para este experimento, 
e calcule a probabilidade de a soma dos dois dados ser 9. O problema se altera se os dados forem da mesma cor? 


Ex. 9 Os 12 times do campeonato do Rio são sorteados de forma completamente aletaória em dois grupos de 6 
times cada. Qual a probabilidade de o Flamengo e o Fluminense acabarem no mesmo grupo? 


Ex. 10 Em uma roda são colocadas n pessoas. Qual é a probabilidade de duas dessas pessoas ficarem juntas? 
Ex. 11 Em uma fila são colocadas n pessoas. Qual é a probabilidade de duas dessas pessoas ficarem juntas? 


Ex. 12 Laura e Telma retiram cada uma um bilhete numerado de uma urna que contém bilhetes numerados de 
1 a 100. Determine a probabilidade do número de Laura ser maior que o de Telma, supondo a extração: 

a) sem reposição. 

b) com reposição. 


Ex. 13 Três jogadores, A, Be C, disputam um torneio. Os três têm probabilidades iguais de ganhar o torneio; 
têm também probabilidades iguais de tirarem o segundo lugar e têm probabilidades iguais de tirarem o último 
lugar. É necessariamente verdadeiro que cada uma das seis ordens possíveis de classificação dos três jogadores 
tem probabilidade 5 de ocorrer? 


Ex. 14 Dois dados são lançados. Os eventos A = “número do primeiro dado foia” e B =“ a soma dos dados é 
b” são mutuamente excludentes (onde 1 <a<6e2<b< 12). Que outras conclusões você pode tirar sobre a e 
b? 


Ex. 15 ([EXCEL]) Há n alunos em uma sala de aula. Qual a probabilidade de haver pelo menos um par que 
faça aniversário no mesmo dia (e mês)? Monte uma planilha mostrando os valores de n e as probabilidades 
correspondentes para 1 < n < 366. Qual valor de n nos dá uma probabilidade de aproximadamente 50% ? 


Ex. 16 (*) a) Uma loteria semanal tem 100 bilhetes. Quem tem a maior chance de ganhar algum prêmio: quem 
compra 10 bilhetes numa semana ou quem compra 1 bilhete por semana durante 10 semanas? 

b) Seja n > 1. Encontre o mínimo da função f (x) = (1 + x)”—(1 + nz) para x € (—1,00). Conclua que f (x) > 0 
para x >=]; 

c) Generalize o item (a): suponha 1 < n < N. Numa loteria com N bilhetes, é melhor comprar n numa semana 
ou 1 por dia durante n semanas? 


1.3. PROBABILIDADE CONDICIONAL T 


1.3 Probabilidade Condicional 


Se tivermos informação adicional sobre um experimento, podemos ser forçados a reavaliar as probabilidades dos 
eventos a ele associados. 


Exemplo 13 Como na seção anterior, jogue um dado e anote o valor de sua face superior. Então S = 
{1,2,3,4,5,6}. Sejam A = {2,4,6}, B = {4,5,6} e C = {5,6}. Se o dado é justo, teremos: 
3 3 2 
Pr(A)= 5’ Pr(B)=-; 
Agora, suponha que você sabe de alguma forma que o número rolado é par. Então seu novo universo é A = {2,4,6}. 
Sabendo-se que o número é par, qual a probabilidade de ele ser maior do que 3? Ou seja, qual a chance de B 
ocorrer na ceretza de que A ocorreu? Esta é a chamada probabilidade condicional de B dado A; neste caso 


Pr (B|A) = ? 


pois há apenas 2 casos “favoráveis a B” dentre os 3 casos “possíveis em A”. Analogamente, convença-se de que: 


2 


Pr (AB) = 5: Pr(A|C) = E Pr (CIA) = 1 E 


3: Pr(BIC)=1; Pr(C|B)=5 


Escreva estas probabilidades em linguagem comum: Pr (A|B) = 2 significa que “sabendo-se que o número é maior 
que três, há 2 de chance de ele ser par”. Numa interpretação freqüentista, diríamos “se rolarmos o dado várias 
vezes, deu um número par cerca de 3 das vezes em que o número foi maior do que 3”. 

Note que Pr (B|C) = 100%, isto é, “na certeza de que deu mais do que quatro, é óbvio que deu mais do que três”, 
ou seja, “B acontece sempre que C acontece”. 


Por outro lado, Pr(C|B) = Z apenas. Assim, “de cada 3 vezes em que B ocorre, C ocorre em apenas 2”. 
O exemplo acima inspira a seguinte fórmula: 


Definição 14 Sejam A e B dois eventos com Pr (A) #0. A probabilidade condicional de B dado A é 


Pr (B|A) = ZAQ 


Exemplo 15 Usando esta fórmula no exemplo anterior, temos 


Pr(ANB) 2/6 2 
IA) pr 6 5 
Note como o número de elementos do espaço amostral S (no caso, 6) desaparece e ficamos ao final apenas com a 
proporção dos elementos de B (que estão também em A) com relação aos elementos de A. 


Exemplo 16 4 tabela abaixo dá a distribuição dos alunos de uma turma, por sexo e por carreira pretendida: 


M F total 
ADM 15 45 60 
ECO 21 9 30 
total 36 54 90 


Escolhe-se ao acaso um aluno. Sejam M, F, A e E os eventos o aluno selecionado é do sexo masculino, é do 
sexo feminino, cursa ADM e cursa ECO, respectivamente. Temos: 

i) Pr (A) = $, isto é, 66.67% dos alunos cursam ADM; os outros 3 = 33.33% cursam ECO. Se você escolher 
um aluno ao acaso, há 66.67% de chance de ele ser de ADM. 

ii) Pr (A|M) = 5, isto é, 41.67% dos alunos homens cursam ADM; os outros 58.33% dos homens estão em ECO. 
Se você escolher um aluno homem ao acaso, há 41.67% de chance de ele estudar ADM. 

iii) Pr (M|A) = 5, isto é, 25% dos alunos de ADM são homens; se você escolher um aluno de ADM ao acaso, 
há 25% de chance deste aluno ser homem. 
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A fórmula da probabilidade condicional é frequentemente utilizada para descobrir Pr (AN B): 


Proposição 17 (Lei da Multiplicação) 


Pr(AN B) =Pr(B|A).Pr(A) = Pr(A|B).Pr(B) 


Exemplo 18 Uma urna contém 4 bolas brancas e 6 bolas pretas. Sacam-se, sucessivamente e sem reposição, 
duas bolas dessa urna. Determine a probabilidade de ambas serem brancas. 
Solução: Sejam Bı = (primeira bola é branca} e Bo = {a segunda bola é branca). Então 


43 12 2 


Pr (B1 A B2) = Pr (B1) . Pr (B2| B1) = =-= = = = — 
E o 0 E 

Note que foi bastante simples o cálculo de Pr (Bs|B1). Realmente, na certeza de que a primeira bola foi branca, é 
fácil calcular a probabilidade da segunda bola ser branca, pois, para a segunda extração, a urna está com 3 bolas 
brancas e 6 pretas. De modo mais geral, é fácil calcular probabilidades condicionais quando as coisas estão na 
ordem certa, isto é, é fácil calcular probabilidades de coisas futuras na certeza de coisas passadas. 


Exemplo 19 Uma urna contém 4 bolas brancas e 6 bolas pretas. Sacam-se, sucessivamente e sem reposição, duas 
bolas dessa urna. Determine a probabilidade da primeira bola ser branca sabendo que a segunda bola é branca. 
Solução: Sejam Bı e B2 como no problema anterior. Queremos Pr (Bi1|Bs). Note que essa é uma probabilidade 
do passado na certeza do futuro. Aqui usamos a fórmula da definição de probabilidade condicional: 


Pr (Bi|Bo) = e 


Calculamos Pr (Bı N B2) no exemplo anterior. Para calcular Pr (B2), basta notar a simetria do problema — não 
há motivo para imaginar que a segunda bola seja branca mais ou menos fregiientemente do que a primeira! Se 
este argumento não lhe parece convincente, faça o seguinte: considere separadamente os casos em que a primeira 
bola é branca e os casos onde a primeira bola não é branca: 


Pr (B2) =.Pr (Bı N Bə) + Pr (Bin Bə) 


A primeira parcela já foi calculada. Quanto à segunda: 


5- — = 64 4 
Pr (B1 A B2) =Pr(B,).Pr(Bs|Bj))=—.-=— 
HE) = Pe (Br) Po = g = T 
já que, após retirar uma bola preta, ficam 4 brancas dentre 9 bolas. Juntando tudo, 
2 4 6 
Pr (B>) = = + = = — 
Heden T 


como havíamos afirmado anteriormente. Enfim: 


Pr (B1 NA B2) o 2/15 = 1 


Uma maneira boa ilustrar esta solução é usar uma árvore de probabilidades: 


6/9 P: 
B: 


Ap SL P» 
am B 


2 
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Menos intuitiva (mas mais fácil de digitar) seria uma tabela como esta (de uma “população fictícia de 900 
retiradas!! ” ): 
B; Bı Totais 
Bə 120 240 360 
Bo 240 300 540 
Totais 360 540 900 


Note que as posições das bolas (primeira e segunda) são intercambiáveis, isto é, Pr(B1) = Pr(B5), e mais, 
Pr (Bı|B2) = Pr (B2|B1), e assim por diante. 


Exemplo 20 Você tem duas moedas, uma com duas caras e a outra justa. Escolha uma delas e a lance. O 
resultado é cara. Qual a chance de ela ser a moeda “viciada”? 
Solução: seja V o evento “escolhemos a moeda justa” e K o evento “deu cara”. Então: 


_ Pr(VAK) 
FEV so 
Mas 
11 1 
Pr(VN K) =Pr(V).Pr(K|V)= 55 =5 
e 
Pr(K)=Pr(VNK)+Pr(VnK) 
onde 
> — = 11 1 
a Pi 
Juntando tudo 
1 ij 
Pr(K) = -+4— 
r(K) é Tá 
> 2 
Pr(VIK) = =a 
> Pr(ViK)=rİr=3 


Exemplo 21 Algumas pesquisas estatísticas podem causar constrangimentos aos entrevistados com perguntas do 
tipo “você usa drogas?” e correm o risco de não obter respostas sinceras ou não obter respostas de espécie alguma. 
Para estimar a proporção p de usuários de drogas em certa comunidade, pede-se ao entrevistado que, longe das 
vistas do entrevistador, jogue uma moeda: se o resultado for coroa, responda a “você usa drogas?” e, se o resultado 
for cara, responda “sim”. Assim, caso o entrevistado diga sim, o entrevistador não saberá se ele é um usuário de 
drogas ou se a moeda deu cara. 

Se s é a probabilidade de um entrevistado responder sim, s é facilmente estimado pela proporção de respostas sim 
obtidas nas entrevistas. Estime p a partir de s. 

Solução: seja D o evento “usuário disse que usa drogas” e K o evento “moeda deu cara”. Colocando tudo numa 
tabela, temos. 


D D 
K 0.5 
K 0.5 
p l-p 1 


Como D e K são independentes, podemos completar a tabela simplesmente multiplicando as probabilidades cor- 
respondentes: 
D D 
K 0.5p 05(1-p) 05 
K 05p 05(1-p) 05 
p I-p 1 
l1 Não estamos dizendo que de cada 900 experimentos, extamente 360 terão a primeira bola branca — estamos dizendo que as 
proporções representadas pelos números da tabela são exatamente as probabilidades do problema. 
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Note que os entrevistados que dizem “sim” estão em 3 lugares da tabela acima — ambas da linha K e os usuários 
de drogas da célula DK. Assim 

s=0.5p+05(1-9)+0.5p=05(1+p)>p=2s-1 
Por exemplo, se 60% dos entrevistados respondem sim, você pode estimar em 20% a proporção de usuários de 
drogas. 
1.3.1 Probabilidade Total e Teorema de Bayes 
Os problemas anteriores ilustram duas técnicas comuns para obtenção de probabilidades: 


Proposição 22 (Lei da Probabilidade Total) Suponha que Bı, Bo, ..., Bn formam uma partição!? de S. 
Então 


Pr(4) Pr (AN B1) +Pr(AN B2) +... +Pr(AN Bn) 


Pr (A|B1) . Pr (B1) + Pr (A| B2) . Pr (B2) +... + Pr (A| Bn) . Pr (Bn) 


Em particular, a partição S = BU B nos dá 


Pr (A) = Pr (A| B) . Pr (B) + Pr (A| B) . Pr (B) 


De fato, A é a união dos conjuntos (sem interseção dois a dois!) da forma A N Bi, justificando a primeira 
igualdade. A segunda igualdade vem simplesmente de aplicar a Lei da Multiplicação várias vezes. Compare esta 
“lei” com os exemplos da subseção anterior. 


Proposição 23 (Teorema de Bayes) Suponha que Bı, B2, ..., Bn formam uma partição de S. Então: 


E Pr (A| Bı). Pr (Bı) 
PA= (A|B:) . Pr (B1) + Pr (A| B2) . Pr (B2) + ... + Pr (A| Bn) . Pr (Bn) 


Em particular 
L Pr(A|B). Pr(B) 
Pr (B|A) = Pr(A|B). Pr(B)+Pr(A|B). Pr(B 


O Teorema de Bayes nos dá a fórmula exata para calcular uma condicional quando temos as condicionais “na 
outra ordem”. Apesar de muito útil, em geral ele é mais fácil de ser entendido com o auxílio de tabelas ou árvores 
— novamente, perceba como ele foi utilizado nos exemplos anteriores. 


1.3.2 Independência 


Em algumas ocasiões, o conhecimento sobre a ocorrência de um evento não muda a probabilidade de um outro — 
este é o conceito de independência estatística: 


Definição 24 Dois eventos (não impossíveis) A e B são ditos independentes se o conhecimento de um deles 
não afeta a probabilidade do outro ocorrer, isto é, se 


Pr(B|4) = Pr (B) 


Intuitivamente, se tudo o que você quer saber é se B acontece ou não, informações sobre o evento A não vão 
lhe ajudar em nada (e, portanto, você não pagaria dinheiro algum pela informação de A ter acontecido ou não — 
mesmo que você tenha certeza de que A acontece, a probabilidade de B não muda). 

Exemplo 25 No caso dos dados do início desta seção, note que A e C são independentes, pois 
1 ji 
Pr (A|C) = Pr(A); Pr(C|A)= ~ Pr (C) 


No entanto, A e B não são independentes, muito menos B e C. 


12Tsto é, eles são mutuamente excludentes dois a dois e B1 U B2 U ... U Bn = S. 
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Note que, da definição de probabilidade condicional, concluímos que dois eventos são independentes se, e 


somente se, Pr (B|A) = “= = Pr(B), isto é 


E e B são independentes <> Pr (AN B) = Pr (A).Pr (B) 


De quebra, passando Pr (B) para o lado esquerdo, acabamos de mostrar que 
Pr (B|A) = Pr (B) & Pr (AN B) = Pr (A) . Pr (B) & Pr (A| B) = Pr (A) 
Pode-se mostrar também que, se A e B são independentes, então 
Pr (B| A) = Pr (B) = Pr (B| A) 


Exemplo 26 Suponha que, numa família com duas crianças, a probabilidade do filho estar gripado é 40% 
(Pr(H) = 0.4) e a probabilidade da filha estar gripada é 60% (Pr(M) = 0.6). É possível calcular a probabil- 
idade de ambos estarem gripados? 

Se supusermos que estes dois eventos são independents, então é simples: Pr (H N M) = (0.4) (0.6) = 24%. Mas 
será que esta suposição é razoável? Afinal, se um deles estiver gripado, imagina-se que a probabilidade do outro 
estar gripado aumenta. Matematicamente falando, acreditamos que Pr(HIM) > Pr (H) = 40%, e a probabilidade 
condicional é que teria de ser usada: 


Pr (H A M) = Pr(H|M).Pr(M) 
Sem mais dados, não é possível resolver o problema. 


Exemplo 27 Por outro lado, se no problema anterior forem dados Pr (H) = 0.4, Pr (M) = 0.6 ePr(H NM) = 
0.3, é possível verificar se os eventos H e M são independentes! De fato, como Pr (H A M) £ Pr (H).Pr (M), 
os eventos não seriam independentes. Outras maneiras de chegar à mesma conclusão: 


Pr(HIM) = o =0.5 > 0.4 = Pr (H) 
Pr(M|H) = a = 0.75 > 0.6 = Pr (M) 


Neste caso, diz-se que o evento H atrai o evento M ou que os eventos são positivamente associados. 


1.3.3 Estudo de Caso 


Problema: Uma pessoa deseja saber se tem o vírus da AIDS ou não. Ao fazer o teste, o teste pode indicar 
POSITIVO (+) ou NEGATIVO (-). No entanto, nenhum teste é 100% correto — em algumas ocasiões, o teste 
pode ser + mesmo que esta pessoa não tenha a doença (o chamado falso positivo); em outras, apesar do paciente 
estar doente, o teste apresenta resultado - (um falso negativo). Digamos que você tem em mãos os seguintes 
dados a respeito do “Teste Elisa” para AIDS: 


e Apenas 0.5% das pessoas no seu país têm AIDS (diz-se que a prevalência da doença é 0.5%) 


e “Elisa” identifica corretamente (como +) 98% das pessoas que têm o vírus (diz-se que a sensitividade do 
teste é de 98%); 


e “Elisa” identifica corretamente (-) 93% das pessoas que não têm o vírus (diz-se que a especificidade do teste 
é de 93%). 


Um paciente escolhido aleatoriamente neste país é testado e testa +. Qual a probabilidade de ele ter o vírus? 


Resposta: Este tipo de problema pode ser facilmente resolvido usando uma tabela com uma população 
“fictícia”. Comece a tabela supondo que haja 10000 pessoas neste país, destas, 50 teriam AIDS e as outras 9950 
não teriam: 

AIDS AIDS Totais 
— 


Totais 50 9950 10000 
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Mas, daquelas 50, 98% (49 pessoas) testarão positivo; daquelas 9950, 7% (696.5 pessoas) serão falsos positivos. 
Use estes números para completar a tabela (não se preocupe com as populações fictícias e fracionárias — afinal, o 
que interessam são as proporções): 


AIDS AIDS Totais 


=+ 49 696.5 745.5 
— 1 9253.5 9254.5 
Totais 50 9950 10000 


Agora podemos proceder a quaisquer respostas como no exemplo anterior. Por exemplo, se sabemos que o paciente 
testou +, qual a chance de ele ter AIDS? Seria: 


49 
Pr (AIDS) = >—— = 6.573 
"i H) = 755 ú 
Dizemos que o poder preditivo positivo do teste é de 6.573%. 
Note como o Teorema de Bayes resolve o problema com uma fórmula só, mas escondendo um bocado a intuição 
do exemplo. Afinal, os dados são 


Pr (+|AIDS) = 98%; Pr (—|AIDS) = 98%; Pr(AIDS) = 0.5% 
dos quais tiramos via Lei do Complemento: 
Pr (+|AIDS) = 7% e Pr (AIDS) = 99.5% 


Enfiando tudo na fórmula de Bayes: 


o Pr(+|AIDS).Pr(AIDS) o (0.98) (0.005) o 
(ADS = SADS). Pr (AIDS) + Pr (AIDS) .Pr (AIDS) — (0.98) (0.005) + (0.07) (0.995) ~ 973% 


Análise: Os dados apresentados acima são compatíveis com os valores de sensitividade e especificidade do 
Teste Elisa para AIDS. A prevalência da AIDS varia muito de país para país e de ano para ano — em 1990, era 
de cerca de 1% nos Estados Unidos, mas apenas 0.2% na Austrália. Como um teste que parecia tão preciso 
pode errar tanto? O problema é que esta doença é muito pouco comum (apenas 0.5% da população a tem). É 
mais provável que esta pessoa seja um dos “proporcionalmente poucos falsos positivos” dentre a grande massa de 
pessoas sadias do que um dos “proporcionalmente muitos corretos positivos” dentre as poucas pessoas doentes! 

Este tipo de probabilidade tem de ser divulgada às pessoas que são testadas! É por este motivo que, ao testar 
+ para uma doença, você deve realizar um segundo teste! 

Por outro lado, não é que o primeiro teste foi “inútil” não. Um resultado positivo no primeiro teste aumenta 
a probabilidade de doença de 0.5% (a priori) para uns 7% (a posteriori). O paciente deve sim se preocupar 
muito mais do que antes do teste. O poder do teste não está em determinar a probabilidade de se estar doente, 
mas em aumentá-la a partir duma probabilidade a priori. A propósito, note como estes cálculos podem variar 
terrivelmente dependendo do que se sabe sobre este indivíduo antes de ele se testar. Por exemplo, se o indivíduo 
pertence a um grupo de risco (digamos, no caso da AIDS, se é hemofílico) não é razoável usar o 0.5% como 
probablidade a priori — usar-se-ia um número maior que refletisse a percentagem de hemofílicos que contraiu a 
doença. Aliás, é por este motivo que é impossível divulgar os tais 7% exatamente — este número depende da 
probabilidade a priori de cada indivíduo. 

Para administradores, este tipo de raciocínio é algo que deve ser levado em conta antes de se decidir por testar 
ou não membros de uma organização (associado às reações psicológicas dos testados que não sabem a diferença 
entre Pr (+AIDS) e Pr(AIDS|+); preconceitos que possam estar associados aos resultados dos testes; etc.). 


Postcript: O seguinte texto foi retirado do site do “Superior Tribunal de Justiça”, no momento sob o link 
HTTP://WWW.STJ.GOV.BR/WEBSTJ/NOTICIAS/DETALHES NOTICIAS.ASP?SEQ NOTICIA=6425. Textos semel- 
hantes foram publicados em vários jornais do país em Setembro de 2002. 
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Quinta-feira, 26 de setembro de 2002 

09:33 - Fundação Pró-Sangue terá de pagar indenização por erro em exame de HIV 

Por causa de diagnóstico errado para HIV positivo, a Fundação Pró-Sangue Hemocentro de São 
Paulo terá de pagar uma indenização no valor de R$ 40 mil ao torneiro P.G.S.. No entendimento 
unânime da Terceira Turma do Superior Tribunal de Justiça (STJ), instituição que emite laudo sobre 
o vírus da Aids sem ressalva quanto à falibilidade do diagnóstico, tem de se responsabilizar se houver 
uma falha no resultado. 

Com isso, os ministros do STJ mantiveram a decisão do Tribunal de Justiça de São Paulo (TJ-SP) 
que condenou a Fundação Pró-Sangue a pagar a indenização. De acordo com o acórdão do TJ-SP, o 
laudo feito pelo maior hemocentro da América Latina não trouxe nenhuma ressalva, observação ou 
advertência de que o resultado deveria ser confirmado para que houvesse certeza do diagnóstico. Para 
o Tribunal, a falibilidade do teste é de conhecimento notório de pessoas bem informadas. Não seria o 
caso, entretanto, de P.G.S., “um modesto operário”. 

Ele propôs ação de indenização por ato ilícito contra a Fundação Pró-Sangue para reparação dos 
danos causados pela notícia equivocada. Ao doar sangue ao hemocentro em junho de 1996, o torneiro 
teve de submeter-se ao teste para detectar se era soropositivo. O resultado apontou que ele era 
portador do vírus da Aids. Incoformado, Paulo Gomes fez outro exame que constou um diagnóstico 
“indeterminado”. 

Durante dois meses, o operário viveu um inferno, segundo relatou no processo. Em conseqüência 
do choque, passou a faltar várias vezes ao trabalho, sobreviveu à base de calmantes e adquiriu gastrite 
nervosa. O erro do laboratório também teria lhe causado insônia, depressão e ansiedade. Com as 
reiteradas faltas ao trabalho, o torneiro foi advertido pelo chefe. Ao saber do que se passava, o chefe 
o aconselhou a procurar um laboratório particular para fazer um novo exame. Foi, então, que ele 
descobriu a verdade: não era portador do vírus. 

A Fundação Pró-Sangue diz que não agiu com imperícia ou negligência. A instituição somente 
teria efetuado os testes sorológicos, mas não transmitido os resultados. O argumento é de que a coleta 
do sangue, triagem e os demais contatos teriam sido feitos com o doador no Núcleo de Hematologia 
de São Caetano do Sul, onde os funcionários deveriam ter orientado o operário sobre a falibilidade do 
laudo. 

Segundo a Fundação, no exame em que constou o resultado positivo foi realizado o “Teste Elisa”. 
Depois, quando o diagnóstico foi “indeterminado” foi aplicado o “Teste Western Blot”. A Pró-Sangue 
explica que todos os métodos sorológicos possuem uma faixa de resultados falsos-positivos. Por isso, 
são realizados testes para confirmação ou não do resultado inicial. 

O pedido da ação de indenização proposta pelo operário foi julgado improcedente na primeira 
instância. O TJ-SP, entretanto, reverteu a decisão. Tampouco foi acolhido recurso apresentado pela 
Fundação àquele Tribunal. Foi então que a instituição propôs agravo regimental que foi julgado 
improcedente pela ministra Nancy Andrighi, em despacho monocrático. 

A Fundação Pró-Sangue decidiu apresentar novo recurso (Agravo Regimental em Agravo de In- 
strumento), que foi apreciado pela Terceira Turma do STJ. Por unanimidade, os ministros negaram 
provimento sob o argumento de que para mudar a conclusão do TJ-SP seria necessário rever as provas 
existentes nos autos, o que é vedado ao Superior Tribunal de Justiça, de acordo com o que estabelece 
a súmula nº 7/STJ. 

Da mesma forma, os ministros negaram pedido de redução do valor da indenização arbitrado pelo 
TJ-SP. Segundo a relatora, ministra Nancy Andrighi, a quantia estabelecida é razoável. Na inicial, 
o autor da ação pediu uma indenização de mil salários mínimos, ou seja, R$ 200 mil. Este valor foi 
considerado excessivo pelos desembargadores de São Paulo. 


1.3.4 Exercícios 


Ex. 17 Joga-se um dado não-viciado duas vezes. Determine a probabilidade condicional de obter 3 na primeira 
jogada sabendo que a soma dos resultados foi T. 


Ex. 18 Um estudante resolve um teste de múltipla escolha de 10 questões, com 5 alternativas por questão. Ele 
sabe 60% da matéria do teste. Quando ele sabe uma questão, ele acerta, e, quando não sabe, escolhe a resposta 
ao acaso. Se ele acerta uma questão, qual é a probabilidade de que tenha sido por acaso? 
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Ex. 19 Na sua capa de 21/8/2001, a revisa VEJA afirma que “47% dos brasileiros não sentem vontade de fazer 
sexo”. Dentro da revista, encontramos que “35% das mulheres não sentem nenhuma vontade de ter relações” 
e “entre os homens, apenas 12% se queixam de falta de desejo”. Explique porque a informação da capa é in- 
compatível com a do texto da reportagem; que dados você precisaria para estimar corretamente o número da 
capa? 


Ex. 20 Na seção anterior, Kuerten e Coria jogavam uma partida de tênis em 3 sets. Cada um deles tem 50% de 
chance de vencer cada set (e supõe-se os sets independentes entre si). Considere os eventos A = “Kuerten vence a 
partida” e B = “o jogo termina em 2 sets”. Calcule as probabilidades de cada um deles. Eles são independentes? 
Mutuamente excludentes? 


Ex. 21 Repita o problema anterior onde Ralph joga contra Kuerten — agora, a probabilidade de Kuerten vencer 
um set é 70%, mas os sets ainda são independentes entre si. 


Ex. 22 Lança-se um dado 3 vezes. Cada vez você tirar 5 ou 6, você ganha $1, caso contrário, você paga 81. Seja 
A =*você teve algum lucro ao final do jogo” e B = “você perdeu $1 no primeiro lançamento”. Calcule Pr (A), 
Pr(B), Pr(A e B) e Pr(A|B). Os eventos A e B são independentes? Mutuamente excludentes? 


Ex. 23 Ralph está na FGV 70% do horário comercial, enquanto Morgado está na FGV 20% do horário comercial. 
Sabe-se também que, em 20% do horário comercial, nenhum dos dois está presente à FGV. Os eventos “Ralph 
está na FGV” e “Morgado está na FGV” são independentes? 


Ex. 24 Um dos problemas analisados no século XVII por Pascal e Fermat e que deu origem à Teoria da Prob- 
abilidade é o chamado “Problema do Cavalheiro de Méré”. Num dos jogos em questão, jogavam-se 4 dados e 
apostava-se que ao menos um 1 ocorreria. O cavalheiro (Antoine Gombaud, que propôs o problema a Pascal) 
argumentava que a probabilidade disto ocorrer seria : para cada dado, somando um total de a = 2 nos 4 dados. 


3 
O que está errado com este argumento? Qual é a probabilidade correta? 


Ex. 25 4 outra parte do “Problema do Cavalheiro de Méré” era calcular a probabilidade de conseguir um duplo 
6 em 24 lançamentos de um par de dados. Novamente, o “cavalheiro” propunha que a probabilidade era de — 
para um lançamento, então deveria ser = = Z para 24 lançamentos. Corrija este argumento. 

Ex. 26 Quantas vezes, no mínimo, se deve lançar um dado para que a probabilidade de obter algum seis seja 
superior a 90%? 


Ex. 27 (Bertrand’s Box) Você tem à sua frente três caixas; uma delas tem duas bolas brancas, uma outra tem 
duas bolas pretas e a terceira tem uma bola de cada cor. Você escolhe uma caixa ao acaso e, dela, retira uma bola 
ao acaso, verificando que ela é branca. Qual a chance de ela ter vindo da caixa com duas bolas brancas? 


Ex. 28 (Monty Hall) a) Em um programa da televisão, o candidato devem escolher uma dentre três portas. 
Atrás de uma dessas portas há um prêmio e atrás de cada uma das outras duas portas há um bode. Escolhida uma 
porta pelo candidato, o apresentador abre uma das outras portas (nota: o apresentador nunca abre a porta do 
candidato e nunca abre a porta com o prêmio), e pergunta ao candidato se ele quer ficar com a porta que escolheu 
ou se prefere trocá-la pela outra porta que ainda está fechada. Você acha que o candidato deve trocar, não deve 
trocar ou que tanto faz? 

b)Agora suponha que os prêmios são um carro, um bode ou uma caixa de sabão em pó ESPUMOSO. O candidato 
escolhe uma porta ao acaso. O apresentador nunca abre a porta do carro nem a do candidato; no entanto, se 
as regras acima ainda permitirem, ele abre a do sabão em pó ESPUMOSO, que limpa mais branco, faz mais 
bolhinhas, e você lava lava lava esfrega esfrega esfrega e hmmmm! que cheirinho de limão! 

i) O candidato escolhe uma porta e o apresentador abre a porta do bode. Qual a chance do carro estar na outra 
porta? 

ii) E se a porta aberta pelo apresentador tiver o sabão ESPUMOSO? 


Ex. 29 Um juiz de futebol meio trapalhão tem no bolso um cartão amarelo, um cartão vermelho e um cartão com 
uma face amarela e uma face vermelha. Depois de uma jogada violenta, o juiz mostra um cartão, retirado do 


bolso ao acaso, para um atleta. Se a face que o jogador vê é amarela, qual é a probabilidade da face voltada para 
o juiz ser vermelha? 
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Ex. 30 O Departamento de Justiça dos Estados Unidos reportou que o número de adultos no Estados Unidos sob 
algum tipo de supervisão judiciária (prisões, casas de detenção ou prisão condicional) chegava a 6.5 milhões em 
2000, dos quais 3.4 milhões eram brancos e 2.15 milhões eram negros. Outro relatório um pouco anterior dizia que 
9% da população negra adulta dos Estados Unidos estavam sob algum tipo de supervisão judiciária, comparados 
com 2% da população adulta branca e 1.3% das outras raças. Usando estas informações, calcule: 

a) x tal que “1 em cada x adultos nos Estados Unidos esteja sob supervisão judiciária”. 

b) A probabilidade de um negro adulto estar sob supervisão. E um branco? 

c) A probabilidade de um adulto sob supervisão ser negro. E ser branco? 

d) A probabilidade de um adulto que não esteja sob supervisão ser negro. E branco? 

e) Os eventos “ser branco” e “estar sob supervisão” são independentes? 


Ex. 31 No estudo de caso acima, suponha que um paciente que já testou + para AIDS faz um segundo teste 
independente do primeiro mas com os mesmos valores de sensitividade e especificidade. Se ele testa + de novo, 
qual a chance de ter AIDS? (Dica: é como se este indivíduo pertencesse a um grupo onde a prevalência da doença 
fosse 6.573%] 


Ex. 32 Três eventos A, Be C são ditos independentes quando são independentes dois a dois e, além disto, 
Pr(ANBNC) = Pr(A)Pr(B)Pr(C). Jogue um dado duas vezes. Sejam A = (primeiro número é par), B = 
{segundo número é par} e C = {a soma dos números é park. Pergunta-se: 

a) A e B são independentes? 

b) A e C são independentes? 

c) B e C são independentes? 

d) A, B e C são independentes? 


Ex. 33 Mostre que E 
Pr (A|B) = Pr (A) > Pr (A|B) = Pr (A) 


isto é, se A e B são independentes, então A e B também são independentes. 


Ex. 34 (*) Se A joga uma moeda honesta n + 1 vezes e B joga n vezes, determine a probabilidade de A obter 
mais caras do que B. 


Ex. 35 Sejam A e B eventos não-impossíveis. Vimos que A é independente de B quando Pr(B|A) = Pr (B). 
Dizemos que A atrai B (denotado A ? B) quando Pr (B|A) > Pr (B) e que A repele B (denotado A | B) quando 
Pr (B|A) < Pr (B). 

a) Mostre que, se 0 < Pr (A) < 1, então ATA. 

b) Mostre que 


(ATB) & (B14) 
(ALB) & (BLA) 


ou seja, podemos dizer que A e B se atraem (ou repelem) mutuamente. 

c) Intuitivamente, quais pares de eventos abaixo se atraem e quais se repelem? 

i) Time A ser campeão e time B (diferente de A) ser campeão. 

ii) Time A ser rebaixado e time B (diferente de A) ser rebaixado. 

iii) Irmão ter gripe e irmã, na mesma casa, ter gripe. 

iv) Irmão ter olhos azuis e irmã ter olhos azuis. 

v) Muitos sorvetes serem vendidos num dia e haver muitos afogamentos no mesmo dia. 
d) Mostre que as seguintes afirmações não são necessariamente verdadeiras: 


(AT B) e (BTC) > (ATC) 
(AT B) e(B1C) > ((AnC)1B) 
(Al B) e (BC) > (ALC) 

) 


(A1 B) e(BLC) > ((ANC) LB) 


(Intuição do último item: eu não gosto da minha irmã nem no namorado dela. Eu raramente saio com ela, e 
quase nunca com o namorado dela — é mais provável eu sair sozinho! Mas, nas raríssimas ocasiões em que os 
dois saem, meus pais me forçam a ir com eles, então certamente eu vou. Você consegue formalizar esta idéia 


com probabilidades?) 
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1.4 Exercícios de Provas 


Ex. 36 (Al 2004.2) Um dado honesto tem duas de suas faces pintadas de vermelho e as demais de azul. O 
dado é lançado três vezes, anotando-se a cor da face obtida. 

a) Qual é a probabilidade de que a cor obtida no to. lançamento seja igual à obtida no 30? 

b) Dado que a mesma cor foi obtida no to e 20 lançamentos, qual é a probabilidade de que no 30 lançamento saia 
esta mesma cor? 


Ex. 37 (A1 2004.2) A figura abaixo mostra a probabilidade de que uma pessoa, escolhida ao acaso em um grupo 
de mulheres com idades de 25 a 35 anos, tenha um certo número de filhos, ou seja, 
Número de mulheres com um certo número de filhos 


Probabilidade = 
TOVQUINORRE Número total de mulheres na amostra 
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a) Se uma mulher é escolhida ao acaso neste grupo, é mais provável que ela tenha quantos filhos? Qual é a 
probabilidade correspondente? 
b) Se uma mãe é escolhida ao acaso neste grupo, é mais provável que ela tenha quantos filhos? Qual é a proba- 
bilidade correspondente? 
c) Suponhamos que, dentre todos os filhos das mulheres da amostra, um seja escolhido ao acaso. Qual é a 
probabilidade de que ele seja filho único? 


Ex. 38 (AS 2004.2) Os alunos de um certo período de uma faculdade fazem 5 matérias. As provas finais serão 
marcadas para uma única semana (de segunda a sábado). Admitindo que cada professor escolha ao acaso e 
independentemente dos demais a data de sua prova, qual é a probabilidade: 

a) de que não haja provas no sábado? 

b) de que os alunos não façam mais de uma prova por dia? 

c) de que haja algum dia com 4 ou mais provas? 


Ex. 39 (AS 2005.2) A probabilidade do tenista Berrando Gemigemi vencer um set contra Maria Xaropova é de 
70%. Eles disputam uma partida de 3 sets (suponha que os sets são independentes uns dos outros). 

a) Qual a probabilidade do Berrando vencer a partida? 

b) Qual a probabilidade de a partida terminar em 2 sets? 

c) Qual a probabilidade de Berrando vencer em 2 sets? 

d) Qual a probabilidade de uma partida vencida pelo Berrando ter terminado em 2 sets? 


Ex. 40 (T1 2006.1) Segundo uma pesquisa de opinião do IBOPE de 2003, 2% dos brasileiros torciam para o 
Botafogo, 15% torciam para o Flamengo, 2% para o Fluminense e 5% para o Vasco. Restringindo a população a 
apenas brasileiros que tivessem grau superior (que eram apenas 8% do total), as porcentagens mudavam para 4%, 
10%, 2% e 8%, respectivamente. Escolha um brasileiro da amostra total do IBOPE ao acaso. 

a) Qual a chance de ele não torcer para nenhum dos quatro grandes clubes cariocas? 

b) Qual a chance de ele ser um flamenguista com grau superior? 

c) Que porcentagem dos torcedores do Fluminense tem grau superior? E do Botafogo? 

d) Se um brasileiro não tem grau superior, qual a chance de ele ser flamenguista? 

e) De acordo com estes dados, os eventos “torcer para o Fluminense” e “ter grau superior” são independentes? 
Mutuamente excludentes? 


DBhttp://www.ibope.com.br/opp/pesquisa/opiniaopublica/download/imprensa torcidas 1 mencao.pdf 


Chapter 2 


Variáveis Aleatórias Discretas 


2.1 Função de Probabilidade e Função de Probabilidade Conjunta 


Muitas vezes estamos interessados não no resultado de uma experiência aleatória e sim em certa função numérica 
do resultado. Por exemplo, jogamos um par de dados e estamos interessados na soma dos resultados; ou jogamos 
uma moeda até obtermos uma “cara” e estamos interessados no número de lançamentos que tivemos que fazer. 
Essas funções são chamadas de variáveis aleatórias. Mais precisamente, variáveis aleatórias são funções reais 
definidas no espaço amostral. 


Exemplo 1 Jogamos uma moeda honesta três vezes. Seja K o número de caras obtidas nesses três lançamentos! . 
K é uma variável aleatória cujo conjunto de valores é {0,1,2,3}. Usando K para cara e C para coroa: 

K assume o valor O quando o resultado é CCC; portanto, Pr(K = 0) = RE 

K assume o valor 1 quando o resultado é KCC ou CKC ou CCK; portanto, Pr(K = 1) = é 
K assume o valor 2 quando o resultado é KKC ou KCK ou CKK; portanto, Pr(K = 2) = É 
K assume o valor 3 quando o resultado é KKK; portanto, Pr (K = 3) = Z. 

As probabilidades associadas a cada valor de K estão na tabela e no gráfico abaixo: 


as 

| 
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Pr(K = k) 


Exemplo 2 Jogamos uma moeda honesta até a obtenção da primeira cara. Seja G o número de lançamentos 
efetuados. G é uma variável aleatória cujo conjunto de valores é o conjunto dos inteiros positivos {1, 2,3, ...}. 
Para k = 1,2,3,..., vê-se que Pr (G = k) é a probabilidade de os k— 1 primeiros lançamentos resultarem em coroa 


e o k-ésimo, em cara. Logo, Pr (G = k) = (E aa (5) — >: 


1Usaremos sempre letras maiúsculas para variáveis aleatórias. 
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Exemplo 3 Jogamos dois dados honestos. Seja Dı o resultado do primeiro dado e Ds o resultado do segundo 
dado. E de se esperar que todos os 36 resultados deste experimento sejam igualmente prováveis, levando à seguinte 
tabela de probabilidades 
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Definição 4 Se X é uma variável aleatória discreta, definimos a função de probabilidade de X por 


px(x)=Pr(X =g) 


É claro que px (x) > 0 para todo zx e © px (x) = 1. 


Definição 5 Se X eY são variáveis aleatória discretas, definimos a função de probabilidade conjunta de 
X eY por 


pxy (x,y) =Pr(X =z eY =y) 


É claro que px,y (x,y) > 0 para todo x,y e > px,y (x,y) = 1. 


Exemplo 6 No exemplo da moeda acima, a função de probabilidade é a da tabela, isto é, 


1 3 3 1 
= os lji=>nlDi= ss =" Es 
px (0) z PK (1) = q; px (2) = q; pr (3) = q; 
px (k) = 0 para k ¢ {0,1,2,3} 
No exemplo dos dois dados, a função de probabilidade conjunta é a que está na própria tabela. Por exemplo 
1 
PhD (3, 4) = Pr (D1 = 3; D2 = 4) = 36 


2.1.1 Distribuição Marginal e Condicional 


Se tivermos uma função de probabilidade conjunta para X e Y mas quisermos a função de probabilidade de apenas 
uma das variáveis, basta somarmos os valores correspondentes nas linhas ou colunas, obtendo a distribuição 
marginal daquela variável. 

Caso o valor de X seja conhecido (digamos X = x), a distribuição de Y dado aquele particular valor de X é 
chamada de distribuição condicional de Y dado X = x. 


Exemplo 7 Suponha que as variáveis X e Y têm a seguinte função de probabilidade conjunta: 


yx i & 3 
O 0.4 01 01 
1 0 02 02 


por exemplo, Pr (X =1;Y =1)=0 (X eY nunca são 1 ao mesmo tempo), enquanto Pr (X = 1;Y = 0) = 40%. 
Fazendo o total dentro de cada coluna encontramos a distribuição marginal de X: 


T 1 2 3 
Pr(X =2) 04 0.3 0.3 


Por outro lado, dado um valor específico de Y, podemos encontrar uma distribuição condicional de X para aquele 
valor de Y. No exemplo acima, a distribuição condicional de X dado que Y = O é simplesmente 


T 1-2 3 


Pr(X=2|Y=0) 5 4 & 
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obtidas pela definição de probabilidade condicional 


Pr(X =veY=0) 


Pr(X =2|Y=0)= Pr =0) 


z 


isto é, a distribuição condicional de X dado Y = 0 é obtida dividindo termos da distribuição conjunta (na linha 
Y = 0) pelo termo correspondente da distribuição marginal de Y (Pr (Y = 0) = 0.6). 


Exemplo 8 Em uma urna há 4 bolas, numeradas 1, 2, 3 e 3. Sacam-se, sem reposição, duas bolas dessa urna. 
Sejam Bı e Bə os números da primeira e segunda bolas sacadas, respectivamente. Os valores da função de 
probabilidade conjunta de Bı e B2 encontram-se na tabela a seguir: 


| Total 1 I 2 | 1 


Por exemplo, Pr (Bı = 1; B2 = 2) = Pr (Bı = 1) . Pr (B2 = 2 | Bı = 1) 15 $. Sugerimos que o leitor confira 
os demais valores e observe que a soma de todos os valores (excluídos os totais) é 1. As probabilidades às margens 
da tabela, que são probabilidades de uma só das variáveis, são as probabilidades marginais. 


2.1.2 Independência de Variáveis Aleatórias Discretas 


Definição 9 Dizemos que X eY são variáveis independentes exatamente quando 


Pr(X=ieY=9)=Pr(X =i).Pr(Y =) 


para quaisquer i e j. 


Proposição 10 X e Y são independentes se, e somente se, a distribuição condicional de X dado Y = j é 
idêntica à distribuição marginal de X (qualquer que seja y possível). De fato, temos: 


para todo à e j. 


Em suma, X e Y são independentes quando o conhecimento sobre o valor de X não afeta a distribuição de 
probabilidades de Y. Neste capítulo, até aqui, há apenas um exemplo de distribuição conjunta com duas variáveis 
independentes — o exemplo dos dois dados justos cujos resultados são Dı e Ds. Note como, naquele exemplo, 
cada probabilidade da distribuição conjunta (55) é o produto das correspondentes probabilidades marginais 


(E para cada variável). 


Exemplo 11 Suponha que as variáveis X eY têm a seguinte distribuição de probabilidade conjunta 


Y\X 0 1 2 Marginal de Y 
7 0.32 0.24 0.24 0.8 
15 0.08 0.06 0.06 0.2 
Marginal de X 04 03 0.3 1 


Note que X e Y são independentes. Note também que todas as condicionais de X dado Y = y são iguais à 
marginal de X (e todas as condicionais de Y são iguais à marginal de Y ). 
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2.1.3 Funções de Variáveis Aleatórias Discretas 


Às vezes temos a distribuição de uma variável aleatória discreta X e gostaríamos de encontrar a distribuição de 
uma nova variável Z = f (X). Também é comum ter a distribuição conjunta das variáveis discretas X e Y e 
procurar a distribuição de uma terceira variável Z = f(X,Y) (ou até a distribuição conjunta de Z = f(X,Y) e 
W = 9g(X,Y)). Os seguintes exemplos mostram como “coletar” as probabilidades de X (ou X e Y) para obter a 
distribuição de Z (ou Z e W). 


Exemplo 12 Como no exemplo acima, seja K o número de caras obtidas em três lançamentos independentes de 
uma moeda justa. Suponha que você ganha $10 para cada cara mas perde $6 para cada coroa lançada. Então sua 
receita é 

Rı = 10.K — 6. (3 — K) = 16K — 18 


Qual a função de probabilidade de Rı? Ora, basta fazer a conversão para cada valor de K: 


Isto é, Pr(Rj = —18) = Pr(R,=30) = 4 e Pr(Rı = —2) = Pr(R;=14) = ł. Para qualquer valor de r g 
{—18, —2, 14, 30} temos Pr (Rı =r) = 0. 


2.25 | 0.25 | 0.25 | 2.25 
I 3 3 


Mas esta tabela ainda não é a função de probabilidade de Rə — devemos primeiro juntar as probabilidades para 
valores iguais de r. A função de probabilidade correta é 


r 0.25 | 2.25 


8 8 


Exemplo 14 Como no exemplo acima, sejam Dı e Ds os números rolados por dois dados justos e independentes. 
Qual a distribuição de probabilidade da soma S = Dı + D2? Bom, a distribuição conjunta de Dı e Ds era 


1 

2 36 36 36 36 36 36 ç 

9 36 36 36 36 36 36 ç 
36 36 36 36 36 36 6 


Anote o valor de S em cada uma das 36 células acima. Note que 


Ss = 26 (Dı, Ds) = (1, 1) 
Ss = 3 & (Dı, Do) € {(1, 2) , (2, 1)} 
S = 4% (Dı, Də) € {(1,3), (2,2), (3,1)} 


S = 26 (Dı, Də) = (6, 6) 


Para cada valor fixo s de S, localize as células onde Dı + Dz = s e some as suas probabilidades 


PriS=s)s 5 Pr (Dı = di; Do = d2) 
dı +d2=8s 
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Assim, encontramos a função de probabilidade de S: 


Exemplo 15 Ainda no exemplo dos dados Dı e Ds, seja D o módulo da diferença entre eles (isto é, D = 
|Dı — Ds|). Qual é a distribuição conjunta de D e Ds? Para cada célula na tabela Dı Ds, considere o valor de 
Də e o valor de D. Juntando as células com pares de valores iguais, chegamos a 


Por exemplo, Pr(D = 1;D, =2) = 2 pois esta célula corresponde a duas células da tabela anterior: (D1, Ds) = 
(1,2) ou (D1, Do) = (3,2). Note que a marginal de Də continua sendo equiprovável entre os valores de 1 a 6, mas 
a distribuição marginal de D favorece a diferença 1 mais do que as outras, sendo 5 a diferença menos provável. 
Note como a distribuição condicional de Də varia bastante de acordo com o valor dado de D. Por exemplo, dado 
que D = 1 teríamos 


k 1 2 3 4 5 6 
Pr(D2=k|D=1) 10% 20% 20% 20% 20% 10% 


favorecendo os números “do meio”. Porém, dado que D = 5, apenas os números extremos são válidos para Do: 


k 1 2 3 4 5 6 
Pr(D2=k|D=5) 50% 0% 0% 0% 0% 50% 


Exemplo 16 Deixamos ao leitor verificar que a distribuição conjunta de Dı e S é dada pela tabela 


DAS 2 fpi 
1 É 

? 
, i 
4 g 
5 £ 

6 i 
fs = a 


onde células vazias correspondem à probabilidade 0. 


2.1.4 Diagrama de Dispersão 


Às vezes, vale a pena marcar os possíves eventos de uma distribuição conjunta no plano para melhor visualizá-la. 
Por exemplo, a distribuição conjunta de Də e D = | Dı — Ds] seria representada por: 
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sd+ + 
41+ + + + 
34+ + + + + + 

D 
24+ + o o + + 
151 o o o mj *¥ 


onde as cruzes azuis correspondem a pontos com probabilidade + e os quadrados vermelhas a pontos com 
probabilidade = (todos os outros pontos têm probabilidade 0). Este tipo de gráfico é chamado diagrama de 
dispersão. 


Exemplo 17 O diagrama de dispersão de Dı e S = Dı + Də é (cada cruz é uma probabilidade de $) 


2.1.5 Exercícios 


Ex. 1 Uma urna contém 4 bolas brancas e 6 bolas pretas. Retiram-se, sem reposição, duas bolas dessa urna. Seja 
Xı o número de bolas brancas sacadas. Determine a função de probabilidade de Xı. 


Ex. 2 Uma urna contém 4 bolas brancas e 6 bolas pretas. Retiram-se, sem reposição, três bolas dessa urna. Seja 
Xə o número de bolas brancas sacadas. Determine a função de probabilidade de Xə. 


Ex. 3 Sabe-se que uma moeda viciada mostra a face cara quatro vezes mais do que a face coroa. Lança-se esta 
moeda quatro vezes. Seja X3 o número de caras que aparecem nestes quatro lançamentos. Determine a função 
de probabilidade de X; e calcule Pr (1 < X; < 3). 


Ex. 4 Seja X4 o número de sets jogados em uma partida de tênis (melhor de três sets) entre dois jogadores de 
igual habilidade. Encontre a função de probabilidade de X4. 
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Ex. 5 Considere a distribuição conjunta dada pela tabela a seguir: 


Y;\X; 1 2 3 
O 01 0.2 03 
1 03 0 01 


a) Encontre as distribuições marginais de Xs e Y5. 

b) Encontre a distribuição condicional de X5 dado que Y; = 1. 
c) Calcule Pr (Y; = 0 | Xs > 2). 

d) As variáveis Xs e Y; são independentes? 

e) Encontre a distribuição de Z5 = 2X; — Y5. 


Ex. 6 Lançam-se simultaneamente uma moeda e um dado. Seja Xg o número de caras obtidas e Yg o número 
obtido no dado. 

a) Encontre a distribuição conjunta de Xe e Ye. 

b) Encontre a distribuição condicional de Xe dado que Ye = 1. 

c) Calcule Pr (X6 = 0 | Yo < 4). 

d) As variáveis Xę e Yg são independentes? 

e) Encontre a distribuição de Ze = X6Y6. 


Ex. 7 Cada pessoa de um casal escolhe independentemente um número do conjunto {—2, —1,0,1,2} (todos os 
números têm a mesma chance de serem escolhidos). Seja X7 o menor dos dois números e Yy o maior (se forem 
iguais, então Xy = Y7). 

a) Mostre que a distribuição conjunta de X7 e Yz é dada pela tabela 


Y7 1 Xy — -2 -1 0 1 2 
-2 0.04 0 0 0 0 
-1 0.08 0.04 O 0 0 
0 0.08 0.08 0.04 0 0 
1 0.08 0.08 0.08 0.04 0 
2 0.08 0.08 008 0.08 0.04 


b) Encontre a distribuição marginal de X7. 
c) Encontre a distribuição condicional de Xy dado que Yz = 0. 


d) Calcule Pr (x <0] (Y7)? = 1) 

e) Seja Zy = Yy — X7. Encontre a distribuição de Z7. 

Ex. 8 Um dado honesto é lançado duas vezes e Dı e Da são os respectivos resultados. 
a) Encontre a função de probabilidade de M = max (Dı, Ds); 


b) Encontre a função de probabilidade de m = min (D1, Ds); 
c) Encontre a distribuição conjunta de m e M e esboce seu diagrama de dispersão; 


Ex. 9 Seja X uma variável aleatória qualquer. Explique porque vale 
Pr(a<X<b)=Pr(X<b)-Pr(X <a) 
Ex. 10 Sejam X eY variáveis aleatórias quaisquer, e sejam M = max (X,Y) em = min (X,Y). Mostre que 
Pr(M =a) +Pr(m = a) = Pr (X = a)+Pr (Y = a) 
Verifique esta propriedade no problema anterior. 


Ex. 11 Seja X o número de caras obtidas em n lançamentos de uma moeda justa. Obtenha a função de proba- 
bilidade de X para n = 1,2,3,4,5. Você consegue determinar algum padrão nas funções obtidas? 

a) E se a moeda for viciada, com probabilidade p de dar cara a cada lançamento? [Esta distribuição será chamada 
de binomial com parâmetros n e p./ 


Ex. 12 Uma moeda viciada tem probabilidade p de dar cara a cada lançamento. Seja G o número de lançamentos 
a serem feitos até obtermos a primeira cara. Encontre a função de probabilidade de G. [Esta distribuição será 
chamada de geométrica com parâmetro p./ 
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2.2 Função de Probabilidade Acumulada 
2.2.1 Definição 


Definição 18 4 função de distribuição (ou função de probabilidade acumulada) de X é definida por 
Fx(r)=Pr(X <a) 
para todo x real. 


2 


Exemplo 19 No exemplo da moeda acima, a função de distribuição é obtida “acumulando” p (x): 


F(0) = P(X<0=p(0)=5 

PO) = Pr(X<1)=p0)+p(1) =$ 

Pe) = PIX<)=p()+(D+r()= 
F(3) = Pr(X <3)=p(0)+p(1)+p(2)+p(3) 


Para ser exato, a função de distribuição pode ser calculada para x real! Mais exatamente: 


Para x € (-c0,0), F(x)=Pr(X<2)=0 


1 
Para x € 0,1), F (x) = Pr (X < 2) = Pr (X =0) = z 
4 
Para xz € 1,2), F (x) =Pr(X < 2)=Pr(X <1)=53 
Para x € 23), PoR 
Para x € [800), F(z)=Pr(X < z)=Pr(X <3)=1 


ou seja, resumindo tudo, a função e seu gráfico são 


0, para x E€ (—00,0) 
F para x € [0,1) 
F (x) = 5 para x € [1,2) 
5, para x € [2,3) 
1, para x € [3,00) 


Proposição 20 Se F é a função de distribuição acumulada de uma variável aleatória discreta: 
i) F é não-decrescente; 

ii) F (—o0) = 0 e F (+00) = 1 (ou seja, Imps=o F (x£) = 0 e missao F (£) = 1); 

iii) F é constante por partes (isto é, uma função-escada). 


Proposição 21 Se F é a função de distribuição acumulada de uma variável aleatória, então 


Pr(a< X <b)=F(b)—F (a) 


? Para duas variáveis X e Y, é possível definir a função de probabilidade acumulada conjunta 
F(x,y) =Pr(X<zeY <y) 


mas esta é raramente usada e por isto está relegada a esta nota de pé de página. 
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Exemplo 22 Lance uma moeda 100 vezes. Como descobrir a probabilidade de termos entre 40 e 60 caras? Mais 
tarde, aprenderemos a calcular a distribuição acumulada usando a função “BinomialDist”: 


F(60) = Pr(X < 60) = BinomialDist (60; 100,0.5) = 0.9824 
F(39) = Pr(X < 39) = BinomialDist (39; 100, 0.5) = 0.0176 


Portanto 
Pr (40 < X < 60) = Pr (39 < X < 60) = 0.9824 — 0.0176 = 96.48% 


2.2.2 Quantis 


Suponha que a variável aleatória X represente a altura de um brasileiro escolhido ao acaso, ou a nota de um aluno 
de uma turma escolhido ao acaso. Gostaríamos de dizer frases do tipo “25% dos brasileiros têm altura menor 
ou igual a «” ou “60% da turma tirou x ou mais”. Os valores de x a colocar nas frases acima são chamados de 
quantis da variável aleatória X (mais exatamente, o 25%-quantil e o 60%-quantil). Mais formalmente: 


Definição 23 O q-quantil de uma variável aleatória X é qualquer valor x; onde a função acumulada “acerta” q 
ou “passa” por q. Formalmente” : 
F(zxg-)<q<F(ra) 


Na prática, para encontrar o q-quantil, vá ao gráfico de F (x) e procure onde o valor de F “igualou ou passou” 
por q. O valor de x naquele salto (ou os valores de x no patamar F (x) = q caso ele exista, incluindo o extremo 
direito) é (são) o g-quantil. 


Exemplo 24 No exemplo dos três lançamentos de moedas da seção anterior (X era o número de caras), observe 
no gráfico de F (x) que: 

O 0.2-quantil de X é1 (em x =1, F (x) pula de 0.125 para 0.5, saltando o valor 0.2). 

O 0.6-quantil de X é2 (em xz =2, F (x) pula de 0.5 para 0.875, saltando o valor 0.6). 

O 0.5-quantil de X é 1.5 (ou qualquer número em [1,2]). 

O 0.875-quantil de X é 2.5 (ou qualquer número em [2,3]). 


Na prática, os quantis mais usados são o 0.25-quantil (chamado de primeiro quartil), o 0.5-quantil (chamado 
de mediana ou segundo quartil) e o 0.75-quantil (terceiro quartil). 


Exemplo 25 Seja X a nota de um aluno da sua turma escolhido ao acaso. Seu professor pode anunciar que 
os quartis de X são, respectivamente, x = 3.5, x = 6.5 (a mediana) e x = 81. O que isto significa? Se você 
tirasse menos que 3.5, você estaria nos 25% piores da turma, e se você tirasse mais que 3.5, você estaria nos 75% 
melhores (os outros números são análogos). Aproximadamente, isto significa que 25% da turma tirou nota abaixo 


de 3.5, outros 25% ficaram entre 3.5 e 6.5, outros 25% entre 6.5 e 8.1 e os melhores 25% estão de 8.1 para cima?. 


2.2.3 Exercícios 


Ex. 13 Faça o gráfico das funções de distribuição acumulada das variáveis Xı — X7 dos exercícios 1 — 7 deste 
capítulo, e encontre os três quartis de cada uma delas. 


Ex. 14 Determine a fórmula para a função de distribuição acumulada da variável G do exercício 12 e encontre 
uma fórmula aproximada para seu q-quantil (em função de q). 


Ex. 15 Dê um exemplo de variável aleatória X cujos primeiro e terceiro quartis sejam iguais. 


“Usamos F (xg—) para representar o seguinte limite pela esquerda: limp-zgy— f (£). 

4Dissemos “aproximadamente” porque, de fato, pode haver um pouco mais do que 25% da turma abaixo ou igual a 3.5, caso 25% 
da turma não seja um número inteiro de alunos ou caso vários tenham empatado com 3.5 (por exemplo, talvez 20% da turma tenha 
3.4 ou menos, e 20% da turma tenha empatado com exatamente 3.5 — o primeiro quartil ainda seria 3.5). 
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2.3 Valor Esperado 


2.3.1 Intuição e Definição 


Fregiientemente, estamos interessados na “média a longo prazo” de uma variável aleatória. 


Exemplo 26 Suponha que sua loja vende armários a $100 cada. Digamos que a receita diaria é uma variável 
aleatória R com a seguinte distribuição: 


r O 100 200 300 400 
Pr(R=r) 20% 10% 40% 20% 10% 


Qual seria a sua receita média diária? Num longo período de N dias, haverá aproximadamente 20% dos dias em 
que você não vende nada, 0.1N dias com receitas de $100 cada, e assim por diante. Nestes N dias, sua receita 
total seria (aproximadamente): 


Receita Total = (0) (0.2N) + (100) (0.1N) + (200) (0.4N) + (300) (0.2N) + (400) (0.1N) = 190N 
ou seja, uma média de uns $190 por dia (a longo prazo). Podemos dispensar o N e encontrar diretamente: 
Receita “Média” = 0 (0.2) + (100) (0.1) + (200) (0.4) + (300) (0.2) + (400) (0.1) = 190 


Definição 27 Se X é uma variável aleatória discreta, definimos o valor esperado (ou esperança matemática, 
ou expectância, ou média, ou valor médio) de X por 


E(X) = Des £p (2) 


isto é, E(X) é uma média ponderada dos valores de X, com pesos iguais às respectivas probabilidades deste 
valores. Ocasionalmente, escreveremos uy = E (X). 


A esperança é uma medida de posição ou de tendência central (valores grandes de X acarretam E(X) grande; 
valores pequenos de X acarretam E(X) pequeno). 


Exemplo 28 No exemplo inicial deste capítulo, o valor esperado de K é de 1.5 caras (em 3 lançamentos), pois: 


E(K) = 0.p(0) + 1.p(1) +2.p(2)+3.p(3) = 0 + 3/8 + 6/8 + 3/8 = 1.5 


2.3.2 Propriedades (Caso Unidimensional) 
Proposição 30 Se Y = f (X), temos 
E (Y) =E (F (X)) = Des f (£) p (x) 


Prova. A idéia intuitiva é que a distribuição de Y terá as mesmas probabilidades da de X só trocando cada 
valor x de X pelo correspondente f (x) de Y. Formalmente, seja y = f (x) e note que 
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Exemplo 31 No exemplo 13, poderíamos calcular E (R2) = E (x — 1.5)°) sem calcular primeiro a distribuição 
de Rs, usando apenas a distribuição de X: 

1 3 3 1 

E = o = (2.25) = + (0.2 .25) Ž + (2.25) = 

(R2) = $ (œ — 1.5) p (x) = (2.25) 5 + (0.25) 5 + (0.25) $ + (2.25) z 


x 


= 0.75 


Note que o somatório já faz o trabalho de juntar Pr (X = 0) = Pr (X = 3) = & num único termo correspondente 


a Pr(Ro = 2.25) = é. 


A fórmula acima fica bem mais simples quando a função f é afim. De fato: 


Proposição 32 Sejam a eb constantes quaisquer. Então: 


E(aX +b) =aB(X)+b 


Em particular: 


E(b) = b 
E(aX) = aE(X) 
E(X —ux) = 0 


Prova. De fato, seja Y = aX +b a outra variável aleatória. Então: 


E(Y) => (az+b) p (x) =a> ap(a)+b5 p(a) =aB(X)+b 


T 


Exemplo 33 No exemplo inicial desta seção, seja A o número de armários vendidos num dia. Como R = 1004, 
temos E (R) = 100E (A), isto é, E (A) = 1.9 armários. A grosso modo, isto significa que “esperamos vender 1.9 
armários por dia”. Note também que E (R — 190) = E (R) — 190 = 0. 


Exemplo 34 No exemplo 12, temos 
E (R1) = E (16K — 18) = 16E (K) — 18 = 16 (1.5) — 18 = 6 


ou seja, uns $6 de lucro por jogo (na média, a longo prazo). 


2.3.3 Propriedades (Caso Bidimensional) 


A idéia de “deixar o somatório do valor esperado coletar as probabilidades da nova variável sem calcular explici- 
tamente a nova distribuição” funciona também com várias variáveis. 


Exemplo 35 Sejam Dı e Də os resultados sucessivos do lançamento de dois dados justos. Seja Z = Dı Do. Os 
valores de Z e suas respectivas probabilidades em cada célula são: 


Para calcular E (Z), poderíamos primeiro montar a função de probabilidade de Z para então calcular X` zp (z). 
Ao invés disso, é mais fácil simplesmente usar direto a tabela acima com todos os valores de Z: 


1+2+3+4+5+64 
2+ 4+64+8 + 10+ 12+ á 
E(Z)=5| +3+6+9+12+15+18+ | = 


H6 +12 +18 +24 + 30 + 36 
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Formalmente, temos: 
Proposição 36 Se Z = f (X,Y ) então 
E (Z) = E (f (X,Y )) = Xy (sy) px, (2,9) 


Prova. A idéia intuitiva é a mesma do exemplo anterior; para encontrar cada p (z) da função de probabilidade 
de Z, precisaríamos coletar as probabilidades de todas as “células” da distribuição conjunta que dessem aquele 
z. Mas o somatório acima já coleta estas probabilidades nos lugares certos e soma zp (z) também! Formalmente: 


>, px,y (2,9) 


F(z,y)=z 
Então 
E(Z) = Š æ()=) z 2 pxy (2,9) ] => 2 zpx,y (£,y) 
z z f(zy)= z f(z,y)= 
-5 E renren- 2t (e, y) px,y (x,y) 
z f(z,y)= 
E 


Analogamente, se Z é uma função afim de X e Y, a propriedade acima fica ainda mais simples: 


Proposição 37 Sejam a, b e c constantes quaisquer. Então 


E (aX +bY +c) =aE(X)+bE(Y)+c 


Em particular, 


E(X+Y)=E(X)+E(Y) 
Prova. Seja Z = aX + bY +c. Então: 
E(Z) = X (az+by+e)p p(x, y) =a> ap(x,y) +o% up (x,y) +c) play) = 


Ty 


= aE(X)+bE(Y)+c 


C] 
Note que as duas últimas propriedades acima são válidas mesmo que X e Y não sejam independentes! 


Exemplo 38 Seja S = Dı + Də a soma de dois dados justos. Para calcular E (S) basta fazer 


Para a diferença Dı — Də temos 
E (Dı — D2) = E (Dı) — E (Də) = 0 


Já para D = |Dı — Ds| não podemos usar a fórmula mais simples — é mais fácil voltar à distribuição de D (veja 
exemplo na seção anterior) para encontrar 


36 36 36 "362 36 


Proposição 39 | Se X e Y são independentes, então E(XY) = E(X)E(Y) 


Prova. De fato, se X e Y são independentes 


E(XY) = Do ryPr(X =x;Y Ro A z) Pr(Y =4)= 
(Zera =a) ! em) =E(N E(Y) 
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2.4 Variância e Outras Medidas de Dispersão 


2.4.1 Definição 


Queremos medir a dispersão da variável aleatória X, ou seja, queremos medir se os valores de X estão concentrados 
próximo à sua média (dispersão pequena) ou distantes da sua média (dispersão grande). Para isso, devemos 
considerar os desvios (resíduos ou afastamentos) de X em relação à sua média, isto é, os resíduos X — E(X). Se 
estiverem próximos de zero, a dispersão será pequena. Como medir se os desvios estão ou não próximos a zero? 
Uma má idéia que ocorre a todos, ainda que por breves momentos, é usar a média dos desvios. Essa idéia é má 
porque, calculando a média, desvios positivos cancelam desvios negativos e a média dos desvios é igual a O (pois 
E(X — E(X)) = 0), mesmo quando os desvios não ficam próximos a zero. Como “sumir” com os sinais negativos 
dos resíduos? 


Definição 40 Duas medidas de dispersão comuns são o desvio médio, definido por 
DM(X)=E(|X- E(X)|) 


e a variância, definida por 
Var(X) = E(X — E(X))?) 


Ao invés da variância, podemos medir a dispersão de X pelo seu desvio-padrão 


o(X) = VVar(X) 


Exemplo 41 No exemplo 1 deste capítulo, E(X) = 1.5 e portanto 


3 


1 
Var(X) = ) (x — 1.5) p(x) = (—1.5) > ! +(-0,5) 25 + (0.5)? = + (1.5)? = = 0.75 “caras quadradas” 
— 8 8 8 8 
o(X) = vVar(X) = v0.75 = 0.866 caras 


3 
Sje- 15 pa) = (15); | (0.5) 5 | (0.5) 5 | (1.5) E =0.75 tis 


DM (X) 


Exemplo 42 No exemplo dos armários, tem-se E (R) = 1900. Assim 


Var(R) = (-190)" (0.2) + (—90)? (0.1) + (10)? (0.4) + (110)? (0.2) + (210)? (0.1) = 14900 “reais quadrados” 
o(X) = v1490= R$38.60 
DM(X) = (190) (0.2) + (90) (0.1) + (10) (0.4) + (110) (0.2) + (210) (0.1) = R$94.00 


Se você preferir, trabalhe com o número de armários: 


Var(A) = (-1.9)(0.2) + (-0.9) (0.1) + (0.1)? (0.4) + (1.1)? (0.2) + (2.1)? (0.1) = 1.49 “armários ao quadrado” 
o(X) = v1.49 = 3.86 armários 


DM (X) 


(1.9) (0.2) + (0.9) (0.1) + (0.1) (0.4) + (1.1) (0.2) + (2.1) (0.1) = R$0.94 

Observe que a unidade que mede X também mede E(X), DM(X) e o(X) , mas a unidade de Var(X) é o 
quadrado da unidade que mede X. Observe também que Var(X), o (X) e DM(X) são sempre maiores que ou 
iguais a 0. 


Proposição 43 Sejam a e b constantes quaisquer. Então: 


Var (aX +b) = a2Var (X) 


o(aX+b)=lal.o(X) 


DM (aX +b) = |al.DM (X) 
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Em particular 


Var(b) = 0 
Var(X +b) = Var(X) 
Var (aX) = a°Var(X) 


Prova. Seja Y = aX +b. Escreva, para facilitar, ux = E (X) e uy = E (Y). Já sabemos que py = apy +b. 
Então: 


Var (Y) 


E (Y = py)?) = E (((aX +8) — (anx +))?) = 


E (a? (X — ne?) =0 E (x — ne?) =° Var(X) 


Conseqüentemente, 
o (Y) = vyVar (Y) = |a|.y Var (X) = |a| .o (X) 
Enfim 
DM(Y) = E(Y - uyl) = E (JaX +b- (aux +b)|) = 
= Elja(X — ux)l) = E (la| |X — uxl|) = la| E (IX — uxl) = |a| .MD (X) 
E 


A fórmula a seguir é a maneira comumente mais simples para encontrar a variância de X. 


Proposição 44 
Var (X) = E (X?) — (E (X)? 


Prova. De fato, 


Vr) = E(X) -E e-m pe) 


TES 
= 3 (1º -22ux+u%) -p (£) = 
ses 
= X xp(z)-2ux > cola) +u%D p(x)= 
ses zes zes 


= E(Xº) -2uxhx + uk = E (X?) — uk 


Proposição 45 | Se X e Y são independentes, Var (X +Y) = Var (X) + Var (Y) 


Prova. 


Var(X +Y) 


P(X +Y}?)- (EX +Y) = 

= E(X? +2XY +Y’) -(E(X)+ E(Y)) = 
= E(X?) - (E(X)? +E (Y°) - (E (Y)? +2(E(XY)- E(X) E (Y)) = 
= Var(X)+Var(Y) 


pois, como X e Y são independentes, temos E (XY) = E(X)E(Y). m 
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2.4.2 Desigualdade de Chebyshev 


Como interpretar a variância (ou o desvio-padrão) de uma variável aleatória? Intuitivamente, quanto menor a 
variância, mais perto de E (X) estão os valores prováveis de X. A formalização desta intuição pode ser feita pelo 
teorema a seguir. 


Teorema 46 (Desigualdade de Chebyshev) Seja X uma variável aleatória com valor esperado u = E (X) e 
desvio-padrão o = o (X). Seja P = {xz ER | |x — u| < ko} (isto é, P é o intervalo aberto (x — ko, x + ko), um 
conjunto de valores de x que estão “perto da média” pelo menos k desvios-padrão). Então, para qualquer k > 0, 
tem-se 


ou seja 


Prova. A demonstração é um belíssimo truque, que se inicia na fórmula da variância 
Var(X) =E ((X -m’) =F (2-0) p(a) 
zES 


Separe o somatório acima em duas partes: 


Var(X) = X (z -u p(£)+ X (æ - p)’ p(x) 


geP xgP 
et EET ba E E 2 o 
O primeiro somatório é maior ou igual a 0; no segundo somatório, vale que (x — u) > k202. Então: 


o? = Var (X) > 0+ k°o? X` p(x) = k°o? Pr (X g P) > Pr(X g P) < 


1 
z 
zgP 


Nota 47 A Desigualdade de Chebyshev significa o seguinte: em qualquer distribuição de probabilidade: 


e Há no máximo + = 25% de chance de X estar a 2 ou mais desvios-padrão da média; assim, há pelo menos 


75% de chance de X estar a menos de 2 desvios-padrão da média. 
e Há no máximo i de chance de X estar a 3 ou mais desvios-padrão da média. 
e Há no máximo — de chance de X estar a 4 ou mais desvios-padrão da média. 


e Há no máximo = de chance de X estar a 5 ou mais desvios-padrão da média. 


Em geral, há no máximo + de chance de X estar a mais de k desvios-padrão da média (k não precisa ser 
inteiro!). 


2.4.3 Exercícios 


Ex. 16 Para cada uma das variáveis Xı — X7 dos exercicios 1 — 7 deste capítulo, encontre seu valor esperado 
E(X;), o número E (Ao, o desvio médio, a variância e o desvio-padrão. 


Ex. 17 Sabendo que E(X) =5 e Var(X) =7, calcule E (X? +2X +5) e Var (2X +5). 


Ex. 18 Uma variável aleatória X tem E(X) = u e Var (X) = 02. A variável Z = Au é chamada de variável 
aleatória padronizada associada a X. Calcule E (Z) e Var (Z). 
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Ex. 19 Uma moeda justa é lançada e observa-se se ela deu cara ou coroa. Considere os seguintes jogos baseados 
nesta moeda: 

A) Se deu cara, você ganha $100 mil; caso contrário, você não ganha nada; 

B) Se deu cara, você ganha $100 milhões; caso contrário, você paga $10 milhões. 

a) Sendo X o seu prêmio, qual o valor esperado e desvio-padrão de X em cada caso? 

b) Você tem de escolher um dos dois jogos, mas só pode jogar uma vez. Que jogo você escolheria? 

c) E se você pudesse jogar um deles várias vezes (digamos, umas 100 vezes), qual você escolheria? 


Ex. 20 Uma roleta em Las Vegas tem todos os números de 1 a 36 mais um O e um 00. Destes números, 18 são 
vermelhos, 18 são pretos e o 0 e o 00 são verdes. A banca roda a roleta com uma bolinha dentro, que pára em um 
dos 38 números. Suponha que a roleta é justa e os 38 números são egiiiprováveis. 

a) Se você aposta $1 no vermelho e o número é vermelho, você tem um lucro de $1; caso contrário você perde sua 
aposta. Calcule o lucro esperado (e sua variância) ao apostar $1 no vermelho. 

b) E se você apostar $1 no vermelho e $1 no preto ao mesmo tempo, quais são a distribuição, valor esperado e 
variância do seu lucro? 

c) Se você aposta $1 no número 13 e a bolinha cai no 13, você tem um lucro de $35; caso contrário, você perde 
sua aposta. Calcule o lucro esperado (e a variância) de apostar $1 no número 13. 

d) Como mudam as respostas acima em Monte Carlo, onde há apenas 37 números na roleta (eles não têm o 00) 
mas os pagamentos se mantêm? 


Ex. 21 Um vendedor de carros se comunica diariamente com 0, 1 ou 2 clientes, com probabilidades 20%, 30% 
e 50%, respectivamente. A cada cliente, a probabilidade de ele conseguir fazer uma venda é de 40%. Seja X o 
número diário de vendas deste vendedor. 

a) Encontre a função de probabilidade de X. 

b) Calcule E (X), E (X?), Var (X) e o (X). 

Ex. 22 Quando jogamos uma moeda várias vezes, uma seqüência mazimal de lançamentos iguais é chamada 
de corrida. Assim, se a lançássemos 11 vezes e o resultado fosse CCCKKCCCCKC, diríamos que há nesta 
segiência 5 “corridas” (o CCC, o KK, o CCCC, o K e o ©). 

Jogue uma moeda justa 3 vezes. Seja X o número de corridas nesta seqüência de três lançamentos. 

a) Encontre um espaço amostral para este experimento. 

b) Encontre E (X), E (X?) e Var(X). 


Ex. 23 (Aposta de Pascal) Pascal usava o seguinte argumento a favor de acreditar em Deus: seja p a proba- 
bilidade de Deus existir. 

Suponha que você acredita em Deus; se Ele existir, você iria ao paraíso, e seu ganho seria a (praticamente in- 
finito); se Ele não existir, você deixaria de lado alguns prazeres materiais, e teria um ganho de —b (finito). 

Por outro lado, se você não acreditar em Deus, e Ele existir, você iria para o inferno — ganho de —c onde c é 
muito grande. Se Ele não existir, o ganho é 0. 

Calcule os valores esperados do seu ganho se você acreditar e se você não acreditar em Deus (em função de a, b, 
cep). Por que o valor esperado de acreditar seria maior? Qual o valor mínimo de p para que isto aconteça? 


Ex. 24 Você tem uma loja que vende tortas caseiras. O custo de fazer uma torta é de $20.00 e você as vende no 
mesmo dia em que foram feitas por $50.00. Os clientes não costumam avisar com antecedência se querem uma 
torta ou não, então você tem de decidir quantas tortas levar para a sua loja antes de saber a demanda de 


cada dia. No entanto, se uma torta não é vendida no dia em que foi feita, você tem de descartá-la. Suponha 
que o número X de tortas demandadas por dia tem a seguinte distribuição: 


q 0 1 2 3 
Pr(X=x) 0.2 0.3 0.3 0.2 


Quantas tortas você deve fazer diariamente para maximizar o valor esperado do seu lucro? 


Ex. 25 Seja X uma variável aleatória qualquer e seja f (t) = E (x — 9). Mostre que f (t) é uma função 


quadrática cujo mínimo ocorre para t = E(X). 
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Ex. 26 Sejam X eY duas variáveis aleatórias independentes com a mesma média u mas diferentes varlâncias 
o? e o2, respectivamente. Seja Z=aX+(1-a)Y. Mostre que E (Z) = u e encontre Var (Z) em função de a. 
Que valor de a minimiza Var (Z)? 

[Este problema se aplica à seguinte situação: X e Y podem ser duas medições independentes de uma mesma 
quantidade u mas feitas com instrumentos de precisões distintas — daí as variâncias distintas; quanto maior a 
variância, pior o instrumento. A partir de X e Y queremos fazer uma média ponderada para encontrar uma 
medida ainda mais precisa Z, e para tanto queremos que Var (Z) seja o mínimo possível — como fazer a ponder- 
ação ?/ 


Ex. 27 Seja X uma variável aleatória com distribuição uniforme discreta, isto é, o conjunto de valores de X 
é (1,2,...,n) e X assume esses valores com probabilidades iguais. Determine E(X), E (X?) e Var(X). [Dica: 
você vai precisar da igualdade 

pad E vnt int) 
que pode ser provada por indução./ 
Ex. 28 Dizemos que X segue a distribuição de Bernoulli de parâmetro p quando tem a seguinte distribuição 


E 0 1 
Pr(X=2) 1-p p 


Neste caso, calcule E (X), E (X?) e Var(X). 


Ex. 29 Num exame de múltipla escolha com 80 questões, cada questão tem 5 escolhas. O aluno recebe 4 pontos 
por resposta correta, mas perde 1 ponto por cada questão respondida incorretamente (se ele deixa a questão em 
branco, ele não ganha nem perde nada). Suponha que o aluno marca aleatoriamente as respostas das questões, 
sem pensar em nenhuma. 

a) Qual o valor esperado do número de pontos ganhos em cada questão? E a variância? 

b) Qual o valor esperado do número de pontos no exame todo? E a variância? 


Ex. 30 Considere os seguintes dois jogos com dados justos: 

A) Você lança o dado 100 vezes e seu prêmio é a soma dos 100 dados. 

B) Você lança um dado uma vez e seu prêmio é 100 vezes o número lançado. 

Estes jogos são equivalentes? Calcule o seu prêmio esperado e a variância do prêmio em cada caso. Que jogo 
você prefere? 


Ex. 31 Uma loteria semanal tem 100 bilhetes e um prêmio fixo para o bilhete sorteado. Quem tem o maior valor 
esperado do prêmio total: quem compra 10 bilhetes numa semana ou quem compra 1 bilhete por semana durante 
10 semanas? Que variância do prêmio total é maior? 


Ex. 32 Sejam Xı, X2, X3 e X4 os números obtidos nos quatro lançamentos sucessivos e independentes de um 
dado justo. Seja S = X + Xə + Xz + X4. Calcule E (S) e Var (S). 


Ex. 33 Sejam X1, Xə, ..., Xn os números obtidos em n lançamentos sucessivos e independentes de um dado 
justo. Seja X = Antas As Calcule E (X) e Var (X). 


Ex. 34 Sejam Xı, Xə, ..., Xn variáveis aleatórias independentes com o mesmo valor esperado u e a mesma 
variância o? (por exemplo, podem ser os resultados das n repetições de um mesmo experimento). Sejam S = 
X+X +. + Xn e X = S/n. Calcule os valores esperados e variâncias de S e X em função de u, o en. 


Ex. 35 Seja X o número de caras obtidas ao lançarmos uma moeda justa 100 vezes (cada lançamento sendo 
independente de todos os anteriores). Calcule E (X) e Var(X). /Dica: seja Xi = 1 se o i-ésimo lançamento deu 
cara, e Xi = 0 caso tenha sido coroa. Note que X = 5" X;.] 


Ex. 36 A cada dia, o valor de uma ação pode subir $3 (com probabilidade 5) ou cair $2 (com probabilidade 3). 
Suponha que a valorização da ação em um dia é independente de todos os outrso. Você compra a ação e a vende 
N dias depois. Qual o valor esperado e a variância do seu lucro? 
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Ex. 37 a) Duas senhoras A e B deixam seus chapéus a e b (respectivamente) na recepção de um hotel. Mais 
tarde, o hotel devolve os chapéus às senhoras em ordem aleatória (isto é, as ordens (a,b) e (b,a) são igualmente 
prováveis). Seja X o número de senhoras que recebe o seu próprio chapéu. Calcule E(X). 

b) Repita o problema anterior para três senhoras com três chapéus supondo que as 6 possíveis ordens de devolução 


são egiiprováveis. 


Ex. 38 Um grupo de n amigos (numerados de 1 a n) resolve fazer um amigo oculto. Para tanto, os números de 
1 an são colocados numa caixa, e cada um deles retira, sucessivamente e sem reposição, um número da caixa 
sem olhar. 

a) Defina Xı, X2,..., Xn da seguinte forma: X; = 1 seo amigo i tira o seu próprio número, e X; = 0 caso 
contrário. Mostre que E (Xi) = —. 

b) Seja X o número total de amigos que retiraram o seu próprio número. Escreva X em função dos X; e calcule 
E(X) sem encontrar sua função de probabilidade. 


Ex. 39 Numa urna há 2 bolas pretas e 3 bolas brancas. Você retira bolas da urna sucessivamente, sem reposição. 
A cada bola preta retirada, você ganha 81; a cada bola branca, você perde 81. 

a) Se você retirar apenas 1 bola, qual o seu lucro esperado? 

b) E se você retirar 2 bolas? E se retirar 3? 4? Todas? 

c) Agora suponha que você pára de retirar as bolas assim que estiver lucrando, ou assim que retirar todas as bolas 


pretas, o que acontecer primeiro. Qual o seu lucro esperado? 


Ex. 40 Sejam u, k eo reais positivos fixos. Encontre uma distribuição de probabilidade que satisfaça a igualdade 


1 
Pr (|X —ul2 ko) = 5 
/Dica: examine a demonstração da desigualdade de Chebyshev./ 


Ex. 41 Se E(X)=0eVar(X)=1, encontre k tal que você possa garantir que Pr (|X| < k) > 99%. 


Ex. 42 Se E(X)=5eVar(X)=9, encontre a tal que você possa garantir que Pr(5-a<X <5+a) > 75%. 


2.5 Covariância e Correlação 


Definição 48 4 covariância entre duas variáveis X eY é 
Cov(X,Y) = EX — E(X) (Y -E (Y) 


Proposição 49 


Cov(X,YW) = E(XY) - E(X)E(Y) 
Prova. Escreva E(X) = uy e E(Y) = uy. Então: 


Cov(X,Y) = E[(X-nux)(Y uy)=E(XY - uxY - ny X + uxuy) = 
E(XY)- uxE(Y)- uyE (X) + uxuy = E (XY) — xuy 


E 

Intuição da Covariância: X — E(X) são os resíduos de X com relação à média, isto é, X — E (X) é 
positivo quando X está acima da média; o produto (X — E (X)) (Y — E (Y )) será positivo sempre que ambos X 
e Y estiverem acima de suas médias, ou quando ambos estiverem abaixo de suas médias. Assim, Cov (X,Y) será 
positivo se X e Y estiverem ambos acima ou abaixo de suas médias ao mesmo tempo mais frequentemente do 
que não. Em suma, uma covariância positiva significa que, via de regra, X tem valor alto quando Y 
tem valor alto, e vice-versa. 
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Exemplo 50 Considere a seguinte distribuição conjunta 


Y\X 1 2 3 
0O 0.4 01 01 
1 0 02 02 


cujo diagrama de dispersão é (o número de símbolos em cada ponto ilustra a probabilidade ali; as retas tracejadas 
são X = E(X)eY =E(Y)): 


13 Do Do 


Esperamos que a covariância de X e Y seja positiva — afinal, note como a maioria dos pontos (e os pontos 
mais “fregúentes”) estão no primeiro e terceiro quadrantes com relação aos eixos com origem em (E (X), E (Y)). 
Isto indica que, a grosso modo, quando X está acima da sua média, Y também está acima da sua média (e 
quando X está abaixo, Y está abaixo). De fato, os cálculos mostram que 


E(X) = 1.9;E(Y)=04; E(XY) = (0.2) (2) + (0.2) (3) = 1.0 
Cov(X,Y) = 1.0- (1.9) (0.4) = 0.24 


que mostra uma covariância positiva entre X e Y. 

Uma interessante interpretação física: coloque uma massa igual à probabilidade p (x,y) em cada possível ponto 
(x,y). O ponto (E(X),E(Y)) é o centro de massa deste sistema! A covariância será positiva se os pontos se 
encontrarem mais frequentemente (e fortemente) no primeiro e terceiro quadrante com relação a este novo par de 
eixos do que no segundo e quarto quadrantes. 


Proposição 51 [se X eY são independentes, então Cov (X,Y) = E (XY)- E(X)E(Y)=0. | 


Nota 52 Não vale a volta: é possível ter Cov (X,Y) = 0 sem que X e Y sejam independentes! Por exemplo, 
considere a seguinte distribuição conjunta 


RX -1 0 1 
= 0.25 
0 0.25 0.25 
1 0.25 


Note que E (X) = E (Y) = E (XY) =0, então Cov (X,Y) = 0, mas note que X e Y não são independentes! 


Assim, a covariância é uma extensão do conceito de independência. A covariância é positiva quando as variáveis 
estão “positivamente associadas”; é zero quando as variáveis não são correlacionadas (isto é, não se afetam 
na média, a grosso modo); e é negativa quando X e Y “se repelem”. 

Infelizmente, o valor numérico da covariância depende das unidades usadas para medir X e Y. Por exemplo, 
se uma troca de unidades multiplicar todos os valores de X por 10 a covariância também será multiplicada por 
10: 

Cov (10X, Y) = E(10XY) — E (10X) E (Y) = 10 (E (XY) — E (X) E (Y )) = 10Cov(X,Y) 
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Definição 53 Outra medida da “variação conjunta” de duas variáveis X eY é a correlação 


— Cov(X,Y) 
PIXY) = odor) 


É fácil ver que p (aX,bY) = p(X,Y) para quaisquer constantes positivas a eb. Assim, a correlação é independente 
da unidade usada para medir X e Y. 


Exemplo 54 Voltemos ao nosso exemplo anterior, onde Cov(X,Y) = 0.24. Para encontrar a correlação, pre- 
cisamos também encontrar 
E(X?) = 4.3; Var(X) = 0.69; 2(7)=04 Var (Y) = 0.24 
0.24 


ar = -s 
pa V0.60V024 


que mostra uma correlação positiva entre X eY. 


Note que Cov (X, X) = E (X?) —-(E(X)) = Var (X). 


2.5.1 Um pouco de Álgebra Linear 


Uma outra maneira de interpretar valores esperados, variâncias e covariâncias requer um conhecimento básico de 
Álgebra Linear. Para entendê-la, voltemos ao exemplo anterior: 


Y\X 1 2 3 
O 04 01 01 
1 0 02 02 


Escreva um vetor com os valores de X para todos os pontos possíveis de nosso espaço amostral, e outro com 
os correspondentes vetores de Y. Neste caso, teríamos: 


VX = (1,2,2,3,3) 
vy = (0,0, 1,0,1) 


Note que, como há 5 pontos possíveis, estes vetores pertencem a R5. Defina tabém o vetor u = (1, 1,1,1,1) (com 
1 em todas as coordenadas). Usando que E(X) = 1.9e E(Y) = 0.4, podemos também escrever os vetores dos 
resíduos: 


rx = vx-E(X)u= (-0.9,01,0.1,1.1,1.1) 
ry = vy—-E(Y)u=(-0.4,-0.4,0.6, —0.4,0.6) 


Enfim, defina um produto interno em Rº usando as probabilidades da distribuição conjunta como pesos na 
ordem correta: 


((£1, 22,23, 4, 25), (Y1, Y2; Y3, Y4, Y5)) = 0.4x1y1 + 0.1x2y2 + 0.2x73y3 + 0.1xr4y4 + 0.2x75y5 


No caso geral, o produto interno seria algo como 
x y) = X mta Pr (X = Y =j) 


Não é difícil provar que, como todas as probabilidades são positivas, isto é de fato um produto interno válido. 
Todas as propriedades descritas daqui para a frente são verificáveis no caso geral. 

Note que, com este produto interno, u é unitário, isto é, (u, u) = 1, pois a soma das probabilidades deve ser 
1. Com esta notação, temos: 


) (wxU); E) = (ora); 

E(XY) = (ux,vy) 
) ( 
) 


rx,rx); Var(Y) = (ry,ry); 


Irxl; o (Y) = |ry| 
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e, em particular, E (X — E(X)) = (rx,u) = 0.5 
Enfim, o sinal de 
Cov(X,Y) = (rx,ry) 


é uma maneira de verificar se os resíduos de X estão “alinhados” com os resíduos de Y. Assim, a covariância 
é um produto interno, e tem todas as propriedades conhecidas dos produtos internos. Por exemplo: 


Cov (X,Y) = Cov (Y, X) 
Cov (aX, Y) = aCov (X,Y) 


Cov (X +Y, Z) = Cov (X, Z) + Cov (Y, Z) 


Por outro lado, uma maneira ainda melhor de verificar o alinhamento de rx com ry é encontrar o (cosseno 
do) ângulo entre eles: 
(rxry) _ Co (X,Y) _ 


t= hlr oo 0) EO 


que independe das unidades usadas na determinação de X e Y. Este é o significado da correlação na linguagem da 
Álgebra Linear: a correlação é o ângulo formado pelos vetores dos resíduos (quando usamos um produto 
interno conveniente, ponderado pela distribuição de probabilidade). 


Em particular, sabemos então que |—1 < p (X,Y) < 1|; e é fácil provar que: 


Se p (X,Y) = +1 então X e Y obedecem perfeitamente a uma relação linear 


De fato: 


p(X,Y) +1 >ry=-ax>Y-E(Y)=a(X;- E(X)) para cada ponto possível (X;,Y;) > 
= todos os pontos (X;,Y;) satisfazem y — E (Y) = a (x — E(X)) 


e esta última equação é uma reta de coeficiente angular a que passa por (E (X), E(Y)) — o sinal de a é o sinal 
da correlação. 


Proposição 55 Para quaisquer variáveis aleatórias X eY: 
Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y) 


Em particular, re-encontramos a propriedade: 


Se X eY são independentes, então Var (X +Y) = Var(X) + Var (Y) 


Prova. Enquanto é possível demonstrar esta propriedade usando muitos somatórios, a interpretação de 
variâncias e covariâncias como produtos internos facilita nossa vida imensamente: 


Var(X +Y) = (rxy; rxy) = (rx +ry,rx +ry) = (rx,rx)}+(ry,ry)+2(rx,ry)} = Var(X)+Var (Y)+2Cov(X,} 
que nada mais é do que uma versão da “Lei dos Cossenos”. E 


Proposição 56 
Cov (aX +b, Y) = aCov (X,Y) 


5 : pa 2 : ~ . 
º Assim, não é de se surpreender que algumas propriedades possam ser redemonstradas com esta notação de produto interno. Por 
exemplo 


Var(X) = (rx,rx) = (wx — E(X)u,vx — E(X) u) = (0x,0x) — 2E (X) (wx, u) + (E (X))}? (u, u) = 
(vx, vx) — 2E (X) E (X) + (E (X)} = E (X?) — (E (X)? 
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Prova. De fato, 
Cov (aX +b,7) = (raxs»,ry) = (arx,ry) =a(rx,ry) = aCov (X,Y) 
E 


Proposição 57 
J p(X,Y) sea>0 
pax tb) = —p (X,Y) sea<0 


Prova. De fato, 


= Cov(aX+b,Y)  aCov(X,Y) a 
PEETRIS e heet a 


Exemplo 58 Uma urna tem cinco bolas numeradas 0, 0, 1, 2, 2; escolha sem reposição três delas. Defina X 
como a menor, Y como a maior. Vamos encontrar a distribuição conjunta de X eY, E(X), Var(X), p(X,Y) 
e Var(X +Y). 

Em primeiro lugar, há (5) = 10 maneiras de escolher as bolas, como na tabela abaixo (onde distinguimos as bolas 
04, Og, 24 e 2g por clareza): 


Escolha: 04081 040824 040B2B 04124 04128 04242B 0g124 0g12pg 08242B 1242B 
X 0 0 0 0 0 0 0 0 0 1 
I 1 2 2 2 2 2 2 2 2 2 


Como estas 10 escolhas são igualmente prováveis, temos: 


NX 0 1 


1 10% 0% 
2 80% 10% 
Então 
E(X) = E(X?) =0.1; Var(X) = 0.1 — 0.01 = 0.09 e ø (X) = 0.3 
E(Y) = 0.1+0.9(2)= 1.9; Var (Y) = 0.09 e o (X) = 0.3 


= 0.2 > Co (X,Y) = 0.2 — (0.1) (1.9) = 0.01 = p (X,Y) = —==— = 


) 

) 

0.01 1 
(0.3)(0.3) 9 
) = Var(X)+Var(Y) +2Cov(X,Y) = 0.09 + 0.09 + 0.02 = 0.2 


2.5.2 Exercícios 


Ex. 43 Jogue um dado duas vezes. Sejam S a soma dos dois dados, e D a sua diferença na ordem em que 
apareceram (D pode ser negativo). Mostre que Cov (S, D) = 0, mas que S e D não são independentes. 


Ex. 44 Se E(X) = 1, E(Y) = 2, Var(X) = 2, Var(Y) = 1 e Cov(X,Y) = -1, calcule E(2X — 3Y), 
Var (2X — 3Y) e Cov (2X — 3Y, X +Y). 


Ex. 45 Se E(X) = 3, E(Y) = —2, Var(X) = 4, Var(Y) = 1 e Cov(X,Y) = —1. Determine E(X — 2Y + 1), 
Var(X — 2Y +1) e Cov(X — 2Y,2X -Y + 1). 


Ex. 46 Se E(X) =3, E(Y)=2, Var(X) = 1, Var (Y) = 4 e Cov (X,Y) = —2, encontre Y em função de X. 
[Dica: correlação.] 


Ex. 47 Jogue um dado duas vezes. Sejam X o máximo dos dois, e Y o mínimo. Calcule E (X +Y), Var(X), 
Var (Y), E (XY), Cov (X,Y), Var(X +Y) e p(X,Y). 
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Ex. 48 A tabela abaixo dá a distribuição conjunta de probabilidade de X e Y. Determine: 


xY 0 1 2 
=| 02 0 01 
O 01 01 01 
1 02 01 01 


a) As distribuições marginais de X e de Y. 

b) O valor esperado e a variância de X e de Y. 

c) A covariância entre X e Y. Elas são independentes? 
d) E(X +Y) e E(XY). 


Ex. 49 Dada a distribuição conjunta das variáveis X e Y, parcialmente conhecida, pela tabela abaixo, complete 
a tabela, supondo X e Y independentes. Então: 


Y\X O 1 2 Pr(Y=y) 
1 0.2 
2 0.15 0.05 
3 


Pr(X =) 0.3 


a) Calcule E(X), E(Y), o desvio padrão de X e o desvio-padrão de Y. 
b) Seja Z = 2X — 4Y. Construa a distribuição de probabilidade de Z. 
c) Calcule E(Z) e Var(Z). 


Ex. 50 Considere a distribuição conjunta das variáveis X e Y : 


Y\X 1 2 3 
i © 0i 02 
2 02 0.1 01 
3 02 0 01 


Seja W = X +Y. Calcule E (W), Var (W) e o (W). 


2.6 Exercícios de Provas 


Ex. 51 (Al 2003.2) As variáveis aleatórias X e Y são tais que Var(X) = 3, Var(Y) = 1 e Cov( X,Y) = —1. 
Determine Var(3X — 2Y) e Cov(2X +Y, X —Y). 


Ex. 52 (A1 2003.2) Um jogador aposta em um jogo honesto de cara-ou-coroa, de acordo com o seguinte sistema: 
i) aposta 1 real na primeira jogada, 2 reais na segunda, e assim sucessivamente, dobrando sempre; 

ii) pára de jogar quando ganha; 

iii) não joga mais de cinco partidas. 

Determine a distribuição do seu ganho total e o valor esperado desse ganho. 


Ex. 53 (A1 2004.2) Um investidor está analisando três alternativas de investimento, para os quais as diversas 
probabilidades de retorno são dadas na tabela abaixo. 


Investimento X Investimento Y Investimento Z 
Retorno Prob. Retorno Prob. Retorno Prob. 
0 0.2 -1 0.3 -1 0.1 
1 0.4 1 0.4 1 0.1 
2 0.4 5 0.3 2 0.8 


O investidor prefere o investimento de maior retorno médio. Entre dois investimentos com os mesmos retornos 
médios, ele prefere o de menor risco (ou seja, de menor variância). Analise os investimentos acima e diga qual 
deve ser o escolhido. 
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Ex. 54 (A2 2004.2) Uma moeda honesta é lançada três vezes. Seja X o número de caras nos dois primeiros 
lançamentos e Y o número de caras nos dois últimos lançamentos. 

a) Construa a tabela de probabilidade conjunta de X eY. 

b) Encontre a distribuição marginal de X e a distribuição condicional de X dado que Y = 1. As variáveis X e 
Y são independentes? 

c) Calcule a correlação entre X eY. 


Ex. 55 (T2 2005.2) Cada pessoa de um casal escolhe independentemente um número do conjunto {—2, —1,0, 1,2} 
(todos os números têm a mesma chance de serem escolhidos). Seja X o menor dos dois números e Y o maior 
(se forem iguais, então X =Y ). A distribuição conjunta de X e Y é dada pela tabela 


A ks do sd À 1 2 
-2 0.04 0 0 0 0 
-1 0.08 0.04 O 0 0 
0 0.08 0.08 0.04 0 0 
1 0.08 0.08 0.08 0.04 0 
2 0.08 0.08 0.08 0.08 0.04 


a) Encontre a distribuição marginal, a esperança e a mediana de X. 
b) Encontre a distribuição condicional de X dado que Y = 0. 
c) Seja Z =Y — X. Encontre a distribuição de Z e calcule E (Z). 


Ex. 56 (T3 2005.2) Cada pessoa de um casal escolhe independentemente um número do conjunto {—2, —1,0, 1,2} 
(todos os números têm a mesma chance de serem escolhidos). Seja X o menor dos dois números e Y o maior 
(se forem iguais, então X =Y ). A distribuição conjunta de X e Y é dada pela tabela 


Y| X= 2 1 0 1 2 
-2 0.04 0 0 0 0 
-1 0.08 0.04 0 0 0 
0 0.08 0.08 0.04 0 0 
j 0.08 0.08 0.08 0.04 0 
2 0.08 0.08 0.08 0.08 0.04 


donde se calculam E (X) = —0.8, E (Y) = 0.8 e Var (X) = Var (Y) = 1.36. 
a) Calcule Cov (X,Y) e p(X,Y). 

b) Calcule Var (Y — X). 

c) Calcule Cov (Y — X,Y + X). 

d) As variáveis Y — X e Y + X são independentes? 


Ex. 57 (Al 2005.2) A distribuição conjunta de X e Y é dada pela tabela 


Y| X> 1 0 1 


1 0.17 0.04 0.09 
0 0.02 0.20 0.18 
1 0.11 0.16 0.03 


a) Encontre as distribuições marginais de X e de Y e calcule Pr (X < 0 | Y? =1). 
b) Calcule Cov(X,Y). As variáveis X eY são independentes? 
c) Calcule p(X,3X + 4Y). 


Ex. 58 (Al 2005.2) Em 1938, o físico Frank Benford observou que, em listas de números e estatísticas que 
ocorram de forma “natural”, o primeiro dígito de tais números é 1 cerca de 30% do tempo (muito mais do que 
os 1/9 = 11.1% esperados se a distribuição dos dígitos fosse uniforme). De fato, sendo X o primeiro dígito de 
um número destas listas, a distribuição de probabilidade de X é dada pela distribuição de Benford: 


1 
Pr(X =k)=cln (= ) para k = 1,2,...9 
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a) Encontre a constante c para que esta distribuição seja, de fato, uma distribuição de probabilidade. 

b) Escreva uma fórmula simples para a função de distribuição acumulada de X e calcule a sua mediana. 

c) Suponha que o primeiro dígito da população de cada município brasileiro segue de perto uma distribuição de 
Benford. Há 5564 municípios do Brasil, dos quais 1309 têm entre 5000 e 10000 habitantes. Quantos municípios 
você estimaria terem entre 5000 e 6000 habitantes? Que hipótese adicional você fez para chegar a esta estimativa? 


Ex. 59 (T1 2006.1) Numa urna há cinco bolas, numeradas 0, 0, 1, 2 e 2. Retire, sucessivamente e sem 
reposição, duas bolas desta urna, cujos números são X e Y, nesta ordem. 

a) Dado que XY =0, qual a probabilidade de termos X = 0? 

b) Encontre a função de probabilidade conjunta de X eY. 

c) Encontre a distribuição marginal de Y. 

d) Encontre a função de probabilidade de Z = XY. 


Ex. 60 (T2 2006.1) Numa urna há cinco bolas, numeradas 0, 0, 1, 2 e 2. Retire, sucessivamente e sem 
reposição, duas bolas desta urna, cujos números são X e Y, nesta ordem. A distribuição conjunta de X e 
Y é dada pela tabela abaixo: 


Nx 0 1 2 Marginal de Y 
0 0.1 01 0.2 0.4 
1 0.1 © 01 0.2 
2 0.2 01 0.1 0.4 
Marginal de X 04 0.2 04 1 


a) Calcule E (X) e Var (X). 
b) Calcule Cov (X,Y) e p(X,Y). As variáveis X e Y são independentes? 
c) Calcule Var (X +Y) e Cov (X —Y,2X +Y). 


Chapter 3 


Principais Distribuições Discretas 


3.1 Distribuição Uniforme 


Seja X uma variável aleatória que assume os valores do conjunto (x1, £2, %3,..., Zn | de maneira eqüiprovável, isto 


é, cada um deles tem probabilidade L, Dizemos que X tem uma distribuição uniforme. E fácil ver que 


E(X) = => mk 
n 
k=1 
n m 2 
veg = y 
ar = 0 — ri — — ; 
n k n2 an 
k=1 k=l 
Por exemplo, se o conjunto for {1, 2,3, ...,n}, então pode-se mostrar que (veja exercício 2.27): 
1 1) (2 1 t= Í 
rax) = apja (nt | Var(x)= 5 


3.2 Brevíssima Revisão de Análise Combinatória 


3.2.1 Princípio Multiplicativo 


Uma tarefa deve ser realizada em r estágios. Suponha que há nı maneiras de relizar o primeiro estágio; para cada 
uma destas nı maneiras, há no maneiras de realizar o segundo; para cada uma destas, há ng maneiras de fazer 
o terceiro estágio e assim por diante. O princípio multiplicativo diz que o número de maneiras de realizar a 
tarefa toda será 


N = nminong...Nr 


3.2.2 Permutações 


Seja A um conjunto com n elementos (distintos). Uma permutação em A é uma ordenação dos elementos de A. 


Proposição 1 Um conjunto A com n elementos tem um total de n! = n (n — 1) (n — 2) ... (3) (2) (1) permutações 
distintas! 


De fato, há n possibilidades para o primeiro elemento; para cada escolha deste, há n — 1 possibilidades para 
o segundo objeto; para cada uma destas, há n — 2 possibilidades para o terceiro; e assim por diante, até o 
penúltimo objeto da ordenação (2 possibilidades) e o último (que só terá 1 possibilidade). Utilizando o princípio 
multiplicativo, concluímos que há n! maneiras de ordenar os n objetos distintos. 


10O número n! é denominado fatorial de n ou n-fatorial. Note que n! = n. (n — 1)!. Por convenção, adota-se 0! = 1. 
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3.2.3 Combinações 


Sejam n e k números fixos. Seja A um conjunto com n elementos. A pergunta desta seção é: quantos subconjuntos 
de A têm k elementos (isto é, de quantas formas podemos escolher k elementos dentre os n elementos de 4)? 


Definição 2 O número binomial (2) é, por definição, o número de maneiras de escolher k elementos de um 


conjunto com n elementos; em outras palavras, se A é um conjunto com n elementos, A tem g) subconjuntos 


com k elementos cada. 


Exemplo 3 O conjunto A = {1,2,3} tem um total de 23 = 8 subconjuntos. São: 1 subconjunto com O elementos 
(o vazio); 3 subconjuntos com 1 elemento; 3 subconjuntos com 2 elementos; e apenas 1 subconjunto com 3 


elementos (o próprio A). Então 
3 3 3 3 
(o) = (9) =3: (3) =3: (5) =1 


Note que (3) + (1) + (5) + (5) = 2º. 
Proposição 4 Os números binomiais são dados pela fórmula 
n n! 
(1) > En 
Prova. Suponha que A tem n elementos. Para escolher um subconjunto ordenado de A com k elementos, 


temos n escolhas para o primeiro elemento, n — 1 para o segundo, e assim por diante, até n — k + 1 escolhas para 
o k-ésimo elemento. Assim, temos um total de 


nn) ln RA D=n(0-D Do + DES Tm 


subconjuntos ordenados. Mas um subconjunto de A com k elementos tem k! possíveis ordenações, isto é, cada 
subconjunto com k elementos de A foi contado k! vezes dentre os subconjuntos ordenados. Assim, precisamos 
dividir o número acima por k!, obtendo a fórmula final. E 


Proposição 5 Sejam n e k inteiros com 0 < k < n. Então? 


Prova. Apresentamos duas demonstrações. Por álgebra: 


n—1 n=1 (n — 1)! (n — 1)! = AS , (n=1) 
( k J+ = uk- p= e MO e 


o  (n-1)! : nho. n! o fn 
a am t+ Go mom (6) 


Por combinatória: seja A um conjunto com n elementos. Seja x um elemento qualquer fixo de A. O número de 
subconjuntos com k elementos de A que contêm 7 é C=) (pois x já está escolhido; dos outros n — 1 elementos, 
devemos escolher k — 1 para completar o subconjunto). O número de subconjuntos com k elementos de A que não 


contêm z7 é Nr (pois x já está fora; dos outros n — 1 elementos, temos de escolher k para fazer o subconjunto). 


3 : Es sê n—1 x n—1 z 
Assim, separamos os (5) subconjuntos de A em dois tipos disjuntos: os CTi) que contêm zx e os (e E ) que não 
contêm x. A soma destes últimos tem de ser o primeiro. E 


É fácil ver que (0) = (1) = 1. A partir deste fato e da fórmula recursiva acima, é fácil determinar todos os 


n. 


números binomiais e montar o famoso triângulo de Pascal. Por exemplo, usando uma planilha Excel: 


? Este número também é denotado por CE em alguns textos. Lê-se “combinação de n, k a k” ou simplesmente “n, k a k”. 
SÉ comum usar (1) = 0 sempre que k < 0 ou k >n. Neste caso, a restrição O < k < n desta proposição não é necessária. 


44 CHAPTER 3. PRINCIPAIS DISTRIBUIÇÕES DISCRETAS 


|È) arquivo Editar Exibir Inserir Formatar Ferramentas Dados Janela Ajuda e ESA 
earme Rj -|NZ s|==||D- T 


PERCENTIL |v =J13+K13 


1 


SEERERECEE 


SESA 
3 3 1 

120] 45 40) 1 

se2 330[ 165] 55] 11 

495 792 924 792 495|=J13+K13 

715 1287 1716 1716 1287 715 266 


364 1001 2002 3003 3432 3003 2002 1001 
455 1365 3003 5005 6435 6435 5005 3003 


aa) 
> 
O0 NAS UN 


peN |-ajua | a EN 
imp tn 


1 


iN 


onde o cursor destaca a fórmula utilizada em todas as células (exceto na coluna k = 0, onde copiamos o valor 

1). 

O leitor atento notará a relação entre os números da linha n acima e os coeficientes do desenvolvimento de 
(x +y)”. De fato: 


Proposição 6 (Binômio de Newton) 


(£ +y)” = Ð ko (potyn 


Prova. Ora, (x +y)” = (x +y) (x +y)... (x+y). Aplicando a propriedade distributiva, encontraremos vários 
termos da forma «x*y"-* para k variando de 0 a n. A única questão é: quantos termos da forma xy”? Para 
encontrar um termo destes, basta escolher k binômios da forma x +y donde os x virão. Como há n destas somas, 


há exatamente W) formas de fazer esta escolha. E 


Corolário 7 Tomando x = y = 1, temos 
Dio (6) = 2” 


confirmando o que já sabíamos: um conjunto de n elementos tem 2” subconjuntos. 


3.3 Processo de Bernoulli 


Definição 8 Um processo de Bernoulli é uma segiiência de experimentos com as seguintes características: 
a) Cada experimento tem apenas dois resultados possíveis, denominados sucesso e falha; 

b) Cada experimento tem a mesma probabilidade p de sucesso, e cada experimento é completamente independente 
de todos os outros. 


Por exemplo, os seguintes experimentos podem ser modelados por processos de Bernoulli: 
a) Jogue uma moeda justa n = 100 vezes (tome, por exemplo, sucesso=cara e p = 5) e conte o número de caras; 
b) Lance um dado até obter um 6 (tome sucesso=“6" e p = 5) e conte o número de lançamentos; 
c) Jogue no vermelho da roleta em Las Vegas até sair no lucro ou perder $200 (sucesso= “vermelho” e p = B), 
É comum usar a notação q = 1 — p para a probabilidade de falha de cada experimento. 


3.3.1 Distribuição de Bernoulli 


Suponha que limitamos o processo acima a apenas 1 experimento. Seja X uma variável aleatória definida por 
X = 1 em caso de sucesso e X = 0 em caso de falha. Então a distribuição de X é simplesmente: 


k 0 1 
Pr(X =k) q=1-p p 
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Como no exercício 2.28, é fácil calcular as principais propriedades de X, a saber 
E(X) = E(X)=p 
Var(X) 


p-p =pq 


3.3.2 Distribuição Binomial 
Definição e Função de Probabilidade 


Suponha agora que o número de experimentos a serem feitos é determinado a priori — digamos, faremos n 
experimentos. Seja X a variável aleatória que representa o número de sucessos obtidos nestes n experimentos. 
Dizemos que X tem uma distribuição binomial de parâmetros n e p (e escrevemos X ~ Bin (n, p)). 

Neste caso, chamaremos a função de probabilidade de X por um nome especial: BinomialDen, isto é 


Pr(X = k) = BinomialDen (k; n, p) 
e chamaremos a função acumulada de BinomialDist: 
Pr(X < k) = BinomialDist (k; n, p) 

Como calcular esta misteriosa função “BinomialDen”? Considere o espaço amostral dado por todas as possíveis 
segiências de Sucessos e Falhas do experimento. Por exemplo, para n = 4, temos 16 possíveis seqiiências: 
(SSSS,SSSF,SSFS,SSFF,SFSS,SFSF,SFFS,SFFF,FSSS,FSSF,FSFS,FSFF,FFSS,FFSF,FFFS,FFF, 

Note que todas as sequências com um determinado número k de sucessos têm a mesma probabilidade, a saber 

pq" 
pois cada um dos k sucessos tem probabilidade p de ocorrer, cada uma das n— k falhas tem probabilidade q = 1— p 
de ocorrer. Por exemplo, no caso n = 4 e k = 2, temos 
Pr(SSFF) = Pr (SFSF) = Pr(SFFS) = Pr(FSSF) = Pr(FSFS) =Pr(FFSS) = p*q 


Agora, quantas destas seqüências têm exatamente k letras S e n — k letras F? Para determinar uma tal 
seqiiência, basta escolher k posições para os S (dentre as n possíveis). Em suma, são E) sequências com k 


sucessos, cada uma com probabilidade p*q"-*. Conclusão: 


Proposição 9 


BinomialDen (k; n, p) = Pr (X = k) = (G)p'g"* 


Quanto à função acumulada, não há fórmula fechada simples para ela. No momento”, o melhor que podemos 
fazer é: 


k 
BinomialDist (k; n, p) = Pr (X < k) = Xo (1) prq 
i=0 k 
Exemplo 10 Jogue uma moeda justa 10 vezes. Qual a chance de obter exatamente 5 caras? Exatamente 2? 


Qual a chance de obter menos de 2 caras? 
Seja X o número de caras obtidas em 10 lançamentos da moeda justa. Então X ~ Bin (10,0.5). Portanto 


5 5 
J 1 1 252 
Pr(X =5) = BinomialDen (5; 10, 0.5) = ( ) (5) (5) É to 24.609% 


5 2 2 1024 256 
AEN NAVIO a 
Pr(X =2) = BinomialDen (2:10,0.5) = (5) (5) G) =a 4.3945% 


Pr(X <1) 


meros n- (9) (8) (8) (0) (8) (8) um 


iDe fato, os nomes mais comuns na literatura para a função de probabilidade binomial são Bin (k;n,p) ou b(k;n,p). A no- 
tação que estamos usando coincide com a do Scientific Workplace e do Maple. Já o Excel usa as sintaxes DISTRBINOM (k;n;p;0) 
(BINOMDIST (k;n;p:;0) em inglês) para a função de probabilidade e DISTRBINOM (k;n;p;1) (BINOMDIST (k;n;p;1)) para a função 
acumulada. 

ºMais tarde veremos como aproximar BinomialDist por outras funções. 
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ou, se você tiver acesso a uma ferramenta computacional que calcule a função acumulada: 


Pr(X < 1) = BinomialDist (1;10,0.5) = 1.074% 


2 4 k 6 8 10 


BinomialDen (k; 10, 0.5) BinomialDist (k; 10, 0.5) 


Exemplo 11 Jogue uma moeda justa 100 vezes. Qual a chance de obtermos exatamente 50 caras? Exatamente 
20? Entre 40 e 60 caras? 
Seja X o número de caras obtidas nos 100 lançamentos da moeda justa. Então X ~ Bin (100, 0.5). Portanto 


100) (Aa 
Pr(X =50) = BinomialDen (50; 100, 0.5) = A (5) (5) = 7.959% 


20 80 
BinomialDen (20; 100, 0.5) = Es ( 5) (5) = 4.228 x 1071º 


20) (2 2 
60 k 100—k 
1 1 1 
ecx = SS (AEE) 


k=40 


go 
(| 
ÉS 
| 
~N 
© 
nd 
| 


Este somatório é bem difícil de calcular. Usando uma ferramenta computacional: 


Pr (40 < X < 60) = BinomialDist (60; 100, 0.5) — BinomialDist (39; 100, 0.5) = 96.48% 


20 40 k 60 80 


BinomialDen (k; 100, 0.5) BinomialDist (k; 100, 0.5) 


Exemplo 12 Role um dado 6 vezes. Qual a chance de obtermos exatamente um 6? Mais do que um 6? 
Seja X o número de 6 rolados. Então X ~ Bin (6, Z) Queremos 


1 VR o 312 
Pr(X = 1) = BinomialDen (16, 5) = (1) (5) (5) Ei 40.1878% 


1/16 6) T77%6 


NOOO (6) (6) a 


ao 
= 
Pq 
vV 
= 
Il 
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Exemplo 13 Sabe-se que 10% dos parafusos de uma fábrica têm defeito. Qual a probabilidade de termos exata- 
mente 2 defeituosos em 10? E 20 defeituosos em 100? 


Solução: 
Número de defeituosos : X ~ Bin(10,0.1) e Y ~ Bin (100, 0.1) 
1 
Pr(X=2) = BinomialDen (2; 10, 0.1) = (5) (0.1)? (0.9) = 19.37% 


100 
20 


Hj 
Lar] 
ra 
II 
N 
= 
II 


BinomialDen (20; 100, 0.1) = ( ) (0.1)? (0.9) = 0.1171% 


BinomialDen (k; 10,0.1) BinomialDen (k; 100, 0.1) 


A planilha Excel Discrete.xls contém uma página com a distribuição binomial de parâmetros n e p (função 
de probabilidade e acumulada) que permite que você mude os valores de n e p e acompanhe como o gráfico da 
função de probabilidade muda. 


Valor Esperado e Variância 


Proposição 14 Seja X ~ Bin(n,p). Então 


E(X)=np 


Var (X) = npq 


Prova. Prova simples: Seja X; = 1 se o i-ésimo experimento foi um sucesso e X; = 0 caso contrário. Então 
X; é uma prova de Bernoulli, e já calculamos 


E(X)=peVar(X;) = pq 


Note que o número de sucessos total é X = Xı + X2 +... + Xn. Então 


E(X) = E(Xı)+E(X2)+...+E(Xn)=np 
Var(X) = Var(Xı)+Var (X2) +... + Var (Xn) = npq 
já que as variáveis X1, X2, ..., Xn são todas independentes entre si. 


Prova Algébrica Feia: 


n! e ! RE 
E(X) = 2 kolk) =) tg Aa k -Dog p"! k = 
a =0 o EM 
n—1 


o i (n — 1)! h=1gn-k — (n — 1)! Jan=l=f =. 
= m) u De- H” ’ a jn- 11-ə? = 
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onde usamos que: o termo em k = 0 pode ser descartado do somatório; a mudança de variáveis j = k — 1; o 
binômio de Newton para (p + E e o fato de que p + q = 1. Analogamente: 


E(-X) = DP- tk-D y ge = 
k=0 k=2 
2 is n—2)! sata 
= n(n-1)p Rea! m 
Ma (n — 2)! j n—2-j 2 n—2 2 
= n(n—1)p 2 Wn=2-9] q =n(n-Dp(p+g)" =n(n-1)p 
Portanto 
E(X’) = E(X-X)+E(X)=n(n-Dp+np=np((n-1)p+D)=np(np+a) 
Var(X) = E(X?) -(E(X)) = np (np +q- np) = npq 


3.3.3 Distribuição Geométrica 


Suponha agora que realizamos um processo de Bernoulli com probabilidade de sucesso de cada prova p > 0. 
Seja X o número de tentativas feitas até o primeiro sucesso (inclusive). Dizemos que X tem uma distribuição 
geométrica de parâmetro p, isto é, X ~ Geom (p). 


Proposição 15 Se X ~ Geom (p), então 


[Pr (X = k) = Geom (k; p) = q%7tp 


Pr(X<k)=1-q* 


Prova. De fato, para que o primeiro sucesso venha na tentativa k, precisamos de obter k — 1 falhas seguidas 
(cada uma com probabilidade q) e, enfim o sucesso (cuja probabilidade é p). Daí vem Pr (X = k) = q'” lp. 
Por outro lado, X > k significa que o primeiro sucesso não ocorreu nas primeiras k provas, isto é, as k primeiras 


provas foram falhas: 
Pr(X > k) =q" 


Portanto 
Pr(X <k)=1-— q" 
Se você preferir uma prova algébrica usando a soma dos termos de uma P.G.: 


k k 


Pish h p=p(lta+e + tato) =p 
j=1 


Proposição 16 Se X ~ Geom (p), então 
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converge para |x| < 1. Derivando termo a termo duas vezes: 


1 oo 
fla) = ——> 5 =1+20+437 440º +... = XO kat! 
(1—«) pd 
92 oo 
(x) = — 4. =2+62+12724+207º+..= k (k — 1) x"? 
Fa) O 3 (k-1) 
O que isto tem a ver com o valor esperado? Ora: 
W = Ee proa 
k=0 (1 - q)? p 
— as 2pq 2 
E(X(X-1) = $ k(k-1)tp = gpf" (q) = 3= 53 
k=0 (1—q) P 
2q 2q P q+ q+1 1 _ q 
2H — — 


Exemplo 17 Lança-se um dado não-tendencioso até a obtenção do primeiro 6. Seja X o número de lançamentos 
efetuados. Qual é a distribuição de X? Quanto valem Pr (X = 4), Pr (X > 4), Pr(X < 4) e Pr(X > 2| X <5)? 
Quanto valem E(X) e Var(X)? 

Solução: X tem distribuição geométrica com parâmetro p = t. As probabilidades são 


5\8/1 125 
Pr(x=4 = (2\ [(:2\= Æ =9.64 
n ) (5) (5) 1296 = 645% 
53º 625 
Pr(X >4) = [=) = ms = 18.22 
MESA G) 1296 = 48-223% 
5\3 91 
Pr(X <4) = 1 = = 42.1 
r(X <4) (5) TE 30% 
== = 2 3 
Pr(X>2|X <5) = Pr(2< X <5) _ Pr(X =3)+Pr(X =4) _ gpt _ 
Pr(X <5) 1-Pr(X > 4) 1— qt 


5X /1\ 1+8} 2% 
= Č = 40.98 
(5) (a) 1-(5)* 61 í 


4 k 6 


Geom (k; &) Geom (k; 0.9) 


Exemplo 18 Lançar um satélite custa $2b por lançamento, e dá um benefício de $3b quando finalmente há 
sucesso (e então param-se os lançamentos). A probabilidade de sucesso é de 90% por lançamento. Qual o lucro 
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esperado? Qual o menor valor da probabilidade que ainda faz o projeto valer a pena? 


No de lançamentos : X ~ Geom (0.9) 
Lucro : L=3-2X 
2 
E(L) = 3-2E(X)=3- 5 = $777.78M 
2 2 
Break-even : E(L)=3- E 0=>»p 3 


3.3.4 Distribuição Binomial Negativa 


Enfim, suponha que o processo de Bernoulli é repetido até obtermos o r-ésimo sucesso. Seja X o número de 
tentativas feitas (incluindo o último sucesso). Dizemos que X tem uma distribuição binomial negativa de 
parâmetros r e p, isto é, X ~ NegBin(r,p). Note que a distribuição geométrica é um caso particular da 
binomial negativa quando r = 1. 


Proposição 19 Se X ~ NegBin(r,p), então, para k > r (k inteiro) 


Pr(X = k) = p. BinomialDen (r — 1; k — 1,9) = (E-i) prg" 


E(X)= 5 e Var (X) = é 


Prova. A demonstração é um dos exercícios da próxima subseção, tente usar as dicas ali presentes antes de 
ler esta prova. Depois, confira: seja Y o número de sucessos nos primeiros k — 1 lançamentos e Z o número de 
sucessos no k-ésimo lançamento. Então Y ~ Bin (k — 1,p) e Z ~ Be (p). Note que o r-ésimo sucesso acontece no 
k-ésimo lançamento se, e somente se, Y = r — 1 e Z = 1, isto é 


X=koe(Y=r-leZ=1) 


Como Y e Z são independentes (pois tratam de lançamentos distintos): 


A e ain ES sir 
Pr(X=4)=Pr(Y =r -1).Pr(2=1)= ($) tgk oo q" 


Enfim, seja Xı o número de lançamentos até o primeiro sucesso, X2 o número de lançamentos dali até o segundo 
sucesso (sem contar o lançamento do primeiro, mas contando o segundo), e assim por diante. Então note que 


X =X +X +. +X; 


e cada um dos X; é uma variável com distribuição geométrica de parâmetro p. Então 


E(X) = Ea) =" 


Var(X) = rVar(Xi) = = 


onde, para a variância, usamos que os X; são independentes entre si. E 


Exemplo 20 Lança-se um dado justo até a obtenção do terceiro “seis”. Seja X o número de lançamentos 
efetuados. Qual é a distribuição de X? Qual é a probabilidade de fazermos exatamente 6 lançamentos? Menos de 
6? Mais de 6? Calcule E (X) e Var(X). 

Solução: A distribuição de X é Binomial Negativa, X ~ NegBin (3, 4). Então 


ii 1 
Pr(X =6)= E BinomialDen (2 5, >) = 2.68% 
Para a próxima pergunta, seja Y o número de sucessos nos 6 primeiros lançamentos (isto é, Y ~ Bin (6, P Se 


tivermos que esperar mais de 6 lançamentos pelo terceiro sucesso, é por que nos 6 primeiros lançamentos tivemos 
2 ou menos sucessos, isto é: 


fil 
Pr (X > 6) = Pr (Y < 2) = BinomialDist (2.6, 5) = 93.77% 
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Então: 
Pr(X < 6)=1-— Pr(X =6)—Pr(X > 6) = 3.55% 


Enfim 


NegBin (k; 3, 5) z $ BinomialDen (2; k-l1; 5) 


3.3.5 Exercícios” 
Ex. 1 Suponha que a probabilidade de uma usina nuclear falhar num determinado ano é de 0.1%. Suponha que 
haja 100 usinas num determinado país. Qual a probabilidade de ao menos uma falhar neste ano? 


Ex. 2 Role um dado 30 vezes. Qual a chance de obtermos exatamente cinco números 6? 


Ex. 3 A probabilidade de um arqueiro acertar um alvo com uma flecha é de 0.20. Lançam-se 5 flechas no alvo. 
Qual é a probabilidade de que ele acerte exatamente 4 flechas no alvo? Pelo menos 2? 


Ex. 4 10% dos parafusos produzidos por uma indústria são defeituosos. Numa amostra com 5 deles, qual a chance 
de termos O defeituosos? 1? 2? Não mais que 2? 


Ex. 5 Minha chance de ganhar um set do Guga é 30%. Qual a chance de eu ganhar um jogo de 3 sets? E um 
de 5 sets? E T sets? 


Ex. 6 Minhoca Gaúcho consegue fazer exatamente 4 finalizações por partida, e a cada uma delas ele tem 30% de 
chance de marcar um gol. Encontre a função de probabilidade do número de gols que ele faz por partida. 


Ex. 7 Suponha que X ~ Bin(n,p). Sabendo que E(X) = 30 e Var (X) = 20, calcule n e p. 


Ex. 8 Sabe-se que 4% dos passageiros não aparecem nos seus vôos. Eu tenho 98 lugares no meu vôo, e reservei 
lugar para 100 passageiros. Qual a chance de eu ter lugar para todos que aparecerem? 


Ex. 9 Um estudante marca ao acaso as respostas de um teste tipo V ou F com 50 questões. 

a) Qual a probabilidade de ele acertar 80% (ou mais?) delas apenas adivinhando? E 60% ou mais? 

b) Se 100 estudantes adivinham as questões ao acaso, qual a probabilidade de ao menos um tirar 80% ou mais? 
c) E se o teste for múltipla escolha com 5 alternativas por questão, como mudam os itens anteriores? 


Ex. 10 Um potencial paranormal tenta adivinhar 10 cartas escolhidas aleatoriamente, cada uma com 5 possi- 
bilidades eqüiprováveis. Se ele não tiver poder algum, qual a chance de adivinhar 8 cartas ou mais? E se 1000 
pessoas comuns forem testadas, qual a chance de ao menos uma adivinhar 8 ou mais cartas por puro acaso? 


ºEm alguns dos problemas desta seção, você vai precisar de uma calculadora ou computador que calcule a Distribuição Binomial 
Acumulada. Use a planilha EXCEL Discrete.xls para fazer os cálculos. 
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Ex. 11 Aposte 70 vezes no número 13 da roleta em Monte Carlo. Qual a chance de você sair de lá com lucro? 
Qual é o lucro esperado? 


Ex. 12 a) Mostre que BinomialDen (k + 1; n, p) = qdo BinomialDen (k; n,p) 
b) Suponha que X ~ Bin(10,p) e que Pr (X = 5) = 2Pr (X = 4). Calcule p. 
c) Se X ~ Bin(m,p), qual o valor mais provável de X? Este número é chamado a moda de X. (Dica: quando 


é que k+ 1 é mais provável do que k?/ 


Ex. 13 Um estudante marca ao acaso as respostas de um teste de 9 questões de múltipla escolha com 4 alternativas 
por questão. Determine: 

a) o número esperado de acertos; a variância do número de acertos; 

b) a nota esperada; a variância da nota; 

c) a probabilidade de obter 4 acertos; 

d) o número mais provável de acertos. 


Ex. 14 Numa loja há dois tipos de torta: maçã e chocolate. Todo dia entram 10 clientes nesta loja, e cada um 
deles pede uma torta — chocolate com 40% de chance, maçã com 60% de chance. Quantas tortas de cada tipo 
tem de estar estocadas por dia para que haja 95% de certeza de que todos os consumidores receberão as tortas que 
pediram? 


Ex. 15 A e B disputam uma série de partidas e ganha a série quem primeiro alcançar 10 pontos. No momento, 
o jogo está 6 a 4 em favor de A. Em cada partida, a probabilidade de B ganhar é 0.6 e a de A, 0.4. Determine a 
probabilidade de B ganhar a série. [Dica: faça-os jogarem 9 partidas novas.[ 


Ex. 16 Uma urna contém 3 bolas brancas, 3 bolas pretas e 4 bolas vermelhas. Sacam-se, com reposição, 5 bolas. 
Determine a probabilidade de serem sacadas: 

a) exatamente 3 bolas brancas; 

b) pelo menos 3 bolas brancas; 

c) 2 brancas, 2 pretas e 1 vermelha. 


Ex. 17 Um laboratório é contratado para fornecer lotes de vacina a um distribuidor. Ocasionalmente, algumas 
vacinas se revelam ineficazes. Como não é possível testar todas (o teste inutiliza a vacina), o distribuidor adota 
o seguinte processo de seleção: extrai de cada lote uma amostra aleatória de 10 ampolas, contendo um número 
X de vacinas estéreis. Se X = 0, o lote é aceito. Se X > 1, o lote é rejeitado". Admitamos que o tamanho do 
lote seja suficientemente grande para quer a distribuição de X seja (aproximadamente) binomial, com n = 10 e 


p= 0.05 (a fração de vacinas estéreis em cada lote). Qual é a probabilidade de que o lote seja aceito? 
Ex. 18 Se X ~ Bin(m,p) e Y ~ Bin(n,p) são independentes, qual é a distribuição de Z = X +Y? 


Ex. 19 Distribua 10000 folhetos aleatoriamente por 2000 quadras em uma cidade. Qual a chance de a sua quadra 
não receber folheto algum? E de receber 5 folhetos? E 10? 


Ex. 20 Um dado justo é rolado até que um 6 seja obtido. Seja X o número de lançamentos feitos. Calcule 
Pr(T>6), Pr(T>4 ePr(T>6]T>2). 


Ex. 21 Seja X ~ Geom (p). Mostre que 
Pr(X >a+b| X >a)=Pr(X >b) 
ou seja, a distribuição geométrica “não tem memória”. 
Ex. 22 A probabilidade de uma tentativa ser bem sucedida é 0.9. Uma tentativa bem sucedida gera um lucro 
(ou seja, o custo já está descontado) 100 e uma tentativa mal sucedida tem um custo 10. Insistir-se-á até haver 


sucesso. Qual é o número esperado de tentativas? Qual é a probabilidade de serem feitas mais de duas tentativas? 
Qual é o lucro esperado? 


“Este processo é designado plano de amostragem simples com tamanho de amostra n = 10 e o número de aceitação c = 0. 
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Ex. 23 A probabilidade de uma tentativa ser bem sucedida é 0.4. Uma tentativa bem sucedida gera um rendimento 
(ou seja, o custo da tentativa ainda não está descontado) 100. As duas primeiras tentativas têm um custo 10 e as 
demais, custo 5. Insistir-se-á até haver sucesso. Qual é o número esperado de tentativas? Qual é a probabilidade 
de serem feitas mais de três tentativas? Qual é o lucro esperado? 


Ex. 24 Seja X ~ Geom(p). Seja Y o número de fracassos antes do primeiro sucesso. Determine o conjunto de 
valores, a função de probabilidade, a esperança e a variância de Y. 


Ex. 25 Num processo de Bernoulli, seja X o número de provas que têm de ser feitas até encontrarmos o r-ésimo 
sucesso (no caso r = 1, X teria uma distribuição geométrica). 


a) Mostre que 
Pr(X =k) = k= L) rgt- 
A Ni pq 


Esta distribuição é chamada de Binomial Negativa com parâmetros r e p. [Dica: considere a probabilidade 
de obter r — 1 sucessos nos primeiros k — 1 lançamentos, e então 1 sucesso no próximo lançamento. / 

b) Mostre que E (X) = 5 €Var (X) = F. [Dica: seja Xı o número de lançamentos até o primeiro sucesso, Xə 
o número de lançamentos dali até o segundo sucesso, etc. Mostre que cada uma destas variáveis é geométrica e 


que X = Xı +Xo +.. + Xp 


Ex. 26 4 probabilidade de o Vasco ganhar um campeonato é de 0.2. Qual é a probabilidade de, nos próximos 
10 anos, o Vasco ganhar mais de um campeonato? E de o segundo campeonato ganho pelo Vasco ocorrer nos 
próximos 5 anos? E de o segundo campeonato ganho pelo Vasco só acontecer depois dos próximos 10 anos? 


Ex. 27 Seja X ~ NegBin(r;p). Seja Y o número de fracassos antes do r-ésimo sucesso. Determine o conjunto 
de valores, a função de probabilidade, a esperança e a variância de Y. 


Ex. 28 Suponha que os sexos dos n + 2 filhos de um casal sejam independentes, exceto por um casal de gêmeos 
idênticos (portanto, de mesmo sexo). Suponha que cada filho tem probabilidade p de ser homem (inclusive os 
gêmeos). Mostre que a distribuição do número X de filhos homens deste casal é dada por 


nc (e) 


para k = 0,1,...,n +2. Calcule E(X) e Var(X). 


3.4 Processo de Poisson 


Queremos um modelo para o número de gols por partida no campeonato brasileiro (X). Suponha que sabemos 
que há 3 gols por jogo na média (isto é, 2 gols por hora). Podemos tentar: 


e Modelo 1: Divida o jogo em 3 blocos de 30 minutos cada. Em cada bloco há um gol. Neste caso, X = 3 
com 100% de chance (tecnicamente, X ~ Bin (3,1)). A média está correta, mas o modelo não nos parece 
muito bom. 


e Modelo 2: Divida o jogo em 6 blocos de 15 minutos cada. Em cada bloco há um gol com probabilidade 
50%. Neste caso, X ~ Bin (6,0.5). A média será de 3 gols por jogo, e cada jogo pode ter de 0 a 6 gols. O 
modelo nos parece melhor, mas jamais gerará um daqueles raros 7 x 2 (como o Atlético-PR vs. Vasco de 
2005). 


e Modelo 3: Divida o jogo em 90 blocos de 1 minuto cada. Em cada bloco haverá um gol com probabilidade 
+. Assim, X ~ Bin (90, 5) tem o valor esperado correto, e até os raros jogos com mais de 8 gols (até 90 
gols!) podem aparecer. 


e Modelo N: Divida o jogo em N blocos, pode haver um gol por bloco com probabilidade + Então 
X ~ Bin(N, 5). 
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O que acontece se tomarmos então N — œ? As distribuições binomiais de probabilidade se aproximam de 
uma nova distribuição, chamada distribuição de Poisson. Neste caso, dizemos que X ~ Poi (3). 
Em geral, lim, oo Bin (k; n £) = Poi(k: y): 


n 


Proposição 21 Se X ~ Poi (u), tem-se 


Prova. Note que p = £ na binomial. Então: 


k ur 
e o un pec n(n-D(n-D.(n-k+D(1-E) 
dm, Bin (kn) = em qu E 
k n k k 
H ; H H H —u H a 
= qn a] ml ee 
90 pë k—1 
E(X) = Euterpe É Di ge ter = pu 
k=0 ` k 
E(X) = Deae =A kk- tke “= ot ge "=" +p 
k=0 ` k=0 k 
Var(X) = E(X°’)- [E(X =x 


Exemplo 22 Suponha que o número de gols numa partida segue uma distribuição de Poisson com média de 3 
gols por partida. Qual a chance de haver 9 gols numa partida? Qual a chance de termos um 0 x 0? 


No de gols : X ~ Poi(3) 
9 
Pr(X=9) = a e? = 0.2701% 
30 
Pr(X=0) = T = e™’ = 4.979% 


Exemplo 23 Um datilógrafo comete uma média de 0.2 erros por página. Assumindo uma distribuição de Poisson, 
qual a probabilidade de ele cometer 2 erros numa única página? Nenhum erro? 


No de erros : X ~ Poi(0.2) 
0.22 4» 
Pr(X=2) = e = 1.637% 
0.2º 02. 02 
Pr(X =0) = el =e tl = 81.87% 


0! 
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Como a distribuição de Poisson é o limite de uma binomial onde o número de experimentos cresce (mas a 
probabilidade decresce mantndo a média fixa), é razoável Poisson para aproximar distribuições binomiais onde 
há vários experimentos com probabilidade de sucesso pequena. Revisitemos alguns exercícios da seção anterior 
para ilustrar esta aproximação: 


Exemplo 24 Distribua 10000 folhetos aleatoriamente por 2000 quadras em uma cidade. Qual a chance de a sua 
quadra não receber folheto algum? E de receber 5 folhetos? E 10? 

Solução: seja X o número de folhetos recebidos na sua quadra. Então X ~ Bin (10000, E Calcular a resposta 
exata dá bastante trabalho: 


1 1999) 10000 
Pr(X = = Bi ialD 0; 10000, — | = | =— = 0.6730 
r( 0) inomialDen ( , 5) (500) % 
1 10000 1º (1999) 
= = Bi ialD 1 — | = ——— — = 17.551 
Pr(X =5) inomialDen (5 0000, sm) ( 5 ) (500) (500) 7.551% 
1 10000 1º /1999\ °°? 
— = 1 1 —— = — I 12 
Pr(X = 10) BinomialDen (10, 10000, zm) ( 10 ) (500) (5000) 812% 


Como n = 10000 é grande e p = — é pequeno, talvez seja razoável trocar a binomial por uma distribuição de 
Poisson com parâmetro u = np = 5. De fato, para Y ~ Poi(5): 


50 

Pr(Y =0) = e T = 0.6738% 
55 

Pr(Y =5). = a = 17.547% 
510 

Pr (Y = 10) ae m 1.813% 


que estão corretas até a quarta casa decimal (segunda da porcentagem)! Assim, neste caso vale a pena usar a 
distribuição de Poisson ao invés da binomial. 


Poi (5) e BinDist (10000, zg) : indistinguíveis Diferença Poi (5) — BinDist (10000 


+ 000) 


Em geral, a distribuição de Poisson é usada sempre que tratamos de eventos “raros” mas que podem acontecer 
“a todo instante” — número de acidentes em uma estrada, número de casos de doença rara numa população, 
número de erros tipográficos, número de chamadas telefônicas recebidas numa empresa, etc. 


Exemplo 25 O número X de acidentes diários na ponte Rio-Niterói tem média 1.8 acidentes por dia. Supondo 
que X tenha distribuição de Poisson, determine a probabilidade de não haver acidentes amanhã e o número mais 
provável de acidentes amanhã. Se houve pelo menos um acidente num dia, qual a chance de ter havido exatamente 
dois acidentes neste dia? 

Solução: estamos supondo X ~ Poi (1.8). Então 


1.8)? 
Pr(X =0) = eis E = e 18 = 16.53% 
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Para a segunda pergunta, note que 


k+1 k 


>et su>k+l 


“uu 
= > C Em H 
Pr(X =k+1)>Pr(X =k) e Er > E 


ou seja, a probabilidade vai aumentando enquanto tivermos k < u — 1, depois começa a diminuir. Neste caso, 
Pr(X=0)<Pr(X=D)>Pr(X=9)>Pr(X=3)D.. 
e, portanto, X = 1 é o número mais provável, com probabilidade 
i 
J; 
Pr(X =1)= gue = 29.75% 
(note que Pr (X = 2) = 26.78%. apenas). Enfim, a última resposta é 


2 
Pr(X =2eX>1) Pr(X =92) e718 (8) 
Pr(X=2|X>1)= = z 99, 
i ea Pr(X > 1) 1-Pr(X=0) 1-e-18 BOS 


3.4.1 Exercícios 
Ex. 29 Determine a moda (isto é, o valor mais provável) de X ~ Poi(4). 


Ex. 30 Suponha os erros de digitação em um texto distribuídos segundo uma Poisson com média 0.2 erros por 
página. Determine a probabilidade de não haver erros nas 10 primeiras páginas. 


Ex. 31 Uma empresa tem capacidade pra atender três clientes por dia. O número diário de clientes que chegam 
à empresa tem distribuição de Poisson com parâmetro 2. Chegando clientes em número superior à capacidade de 
atendimento, os excedentes são dispensados. Determine: 

a) a probabilidade de haver, em um dia, clientes não atendidos; 

b) o número médio de clientes atendidos por dia; 

c) para quanto deve ser ampliada a capacidade de atendimento para que a probabilidade de haver clientes não 
atendidos seja menor que 0.06? 


Ex. 32 No jogo da Sena, são sorteadas 6 dentre 60 dezenas, de modo que há (O) = 50 063 860 resultados possíveis. 
Cada apostador escolhe 6 dezenas e ganha a sena se suas 6 dezenas são sorteadas. Suponha que haja 50 063 860 
apostadores que tenham escolhido suas dezenas ao acaso. Determine a probabilidade de haver O ganhadores, 1 
ganhador e 2 ganhadores, respectivamente. 


Ex. 33 Se a taxa média de mortalidade por afogamento acidental é de 3 por 100000 habitantes por ano, determine 
a probabilidade de que, em uma cidade de 200000 habitantes, se verifiquem em um ano mais de 3 mortes por 
afogamento. E menos de 3? 


2 F3 


Ex. 34 Em uma excursão ao pantanal de Mato Grosso certa ave é avistada um número de vezes que é uma 
variável aleatória de Poisson com média À = 0.8. Qual a chance de, numa excursão, não se avistar nenhuma 
daquelas aves? E de avistar mais de duas? 


Ex. 35 Na revisão tipográfica de um livro encontrou-se em média 1.5 erros por página. Das 800 páginas do livro, 
estimar quantas não precisam ser modificadas por não apresentarem erros. 


Ex. 36 Uma companhia de seguros observa que 0.008% das pessoas morrem em um tipo especial de acidentes a 
cada ano. Qual é a probabilidade da companhia ter que pagar para 3 ou mais vítimas das 5000 pessoas asseguradas 
contra tal tipo de acidente em um ano? 


Ex. 37 Numa estrada há diariamente 2 acidentes para cada 100 km. Qual é a probabilidade de que em 300 km 
ocorram 5 acidentes num dia? E, em 250 km, pelo menos 3 acidentes? 


Ex. 38 (*) Partículas radioativas são emitidas por uma fonte de modo que o número de partículas emitidas por 
segundo tem distribuição de Poisson com parâmetro À. Um contador tem probabilidade p de detectar uma partícula 
emitida. Admitindo independência entre as detecções, qual é a distribuição do número de partículas detectadas 
por segundo? 
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3.5 Distribuição Hipergeométrica 
De uma caixa com r bolas “sucesso” e N — r bolas “falha”, extraímos sem reposição n bolas. Seja X o número 
de bolas de sucesso. Dizemos que X tem distribuição hipergeométrica com parâmetros n, r e N (isto é, 


X ~ Hip(n,r,N)). 


Proposição 26 Se X ~ Hip (n,r, N), então 


onde p = Ẹ- 


Prova. Há (1) maneiras eqüiprováveis de escolher as n bolas das N disponíveis. Destas maneiras, quantas 


têm exatamente k sucessos e n — k falhas? Basta escolher k dentre as r bolas sucesso, (são (7) maneiras de faze 


isto) e então escolher n — k dentre as N — r bolas fracasso (há o) maneiras de escolher isto). Portanto, são 


(1) TF) maneiras favoráveis dentre as (À) maneiras equiprováveis, isto é 


(3) (n=%) 
(ad 


Seja X; o número de sucessos contados apenas olhando para a i—ésima bola retirada. Claramente, X = Xı + 
Xo +.. + Xn e X; é uma variável de Bernoulli com parâmetro p = $. Então 


E(X) = E(X1) +E (Xə) Ae +E(Xn) = np 
No entanto, note que estas variáveis não são independentes! Assim, para calcular a variância, fazemos 


n(n— 1) 


3 V 


Var (X) = Var (X1) + Var (X2) +... + Var (Xn) + 25 Co (Xi, X;) = npq + 2 
iz 


onde V = Cov (X;, Xj) deve ser o mesmo para quaisquer duas variáveis distintas X; e X; Como calcular V? Ora, 
para n = N devemos ter Var (X) = 0, já que neste caso todas as bolas são retiradas e então certamente X = r. 
Assim 


= Pq 
0=N N(N-1)V> V= 
pq + N( ) NI 
Portanto 
p n—1 N-n 
Var(X)= — —1 = 1- — | = 
ar (X) = npg- n(n- 1) 5 npa ( z=) pI 


O fator yon é chamado de “fator de correção para populações finitas”. Note como ele se aproxima de 1 à medida 


que N > œo (com n fixo). E 


Exemplo 27 Há 6 times paulistas num campeonato brasileiro com 20 clubes. Escolha 4 ao acaso (digamos, para 
rebaixamento). Qual a chance de nenhum ser paulista? E 1 ser paulista?2? 3? Todos os 4? 


(o) (4) _ 1001 


Paulistas : X ~ Hip(4,6,20) Pr(X=0)= (39) ABAS & 20.66% 
4 
6y (14 6y (14 
Pr(X=1) = ai =4508% Pr(X=9)= al = 28.17% 
4 4 
a OD. E La E S 
Pri =3) = a = 5.78% Pr(X=4)= a aT 0.310% 
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Exemplo 28 E para os 4 cariocas? 


Cariocas : X ~ Hip(4,4,20) Pr(X=0)= 


() 969 
Prsi) = o =46.23% Pr(X=2)= Lo = 14.86% 
Pr(X=3) = — =1.32% Pr(X =4)= ——- = 0.0206% 


Hip (k; 4,6,20) e Hip (k; 4, 4, 20) Mega-sena: Hip (k; 6,6,60) e Hip (k; 6, 10, 60) 


Exemplo 29 No jogo da sena são sorteadas 6 dentre 60 dezenas. Apostamos em 10 dezenas. Qual a probabilidade 
de acertarmos 4 dezenas? Qual o número esperado de testes em que devemos apostar para, pela primeira vez, 
acertar 4 dezenas? 

Solução: As 60 dezenas estão divididas em 10 apostadas (sucessos) e 50 não apostadas (falhas). Serão acertadas 
4 dezenas se sortearem 4 das dezenas apostadas e 2 das não apostadas. Seja X o número de dezenas sorteadas 
de sucesso (isto é, que estão no meu jogo). Então X ~ Hip (6,10,60). Portanto 


(19) (50) 
Pr(X = 4) = ~“ = 0.5138% 
(6) 
Seja Y o número de tentativas até obter uma quadra. Então Y ~ Geom (0.5138%) isto é 
60 
1 (6) 


EQ) = qo ~ (ne) 


= 194.61 


Nota 30 Note que os papéis der e n são intercambiáveis. De fato, 


ntri(N — n)!(N — 9)! 

Hip (k; n,r, N) = niri (N =n)! (N =r)! 
k! (r — k)! (n — k)! N! 

é uma expressão que permanece invariante se trocarmos as posições de r en. Em suma 


Hip(k;n,r,N) = Hip(k;r,n,N). 


Também note que, sen << N, então Hip(n,r,N) & Bin (n, p)è. 


3.5.1 Exercícios 


Ex. 39 Uma urna contém 5 bolas brancas e 3 bolas pretas. Retiram-se, sem reposição, duas bolas dessa urna. 
Seja X o número de bolas brancas sacadas. Determine a distribuição de X, E(X) eVar(X). 


SE os dois comentários juntos mostram também que, se r << N, então Hip (n,r,N) ~ Bin (r, F) 
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Ex. 40 No jogo da mega-sena são sorteadas 6 dentre 60 dezenas. No ano de 2005, os prêmios médios foram de 
cerca de R$18.000.000,00 para a sena, R$18.000,00 para a quina e R$240,00 para a quadra. Um volante básico 
com 6 dezenas custa R$1,50; um volante com 10 dezenas custa (e) vezes mais (isto é, $315,00) e um volante 
com 15 dezenas custa (0) R$1,50 = R$7507,50. Usando os valores médios acima para os prêmios, descubra o 
valor esperado do lucro em cada uma destas apostas. Qual deveria ser o valor do prêmio da mega-sena para que 


a aposta básica começasse a valer a pena? 


Ex. 41 Uma lotérica recebe, para revender, 1000 bilhetes de uma loteria à qual concorrem 100000 bilhetes e são 
premiados 10000 bilhetes. Seja X o número de bilhetes premiados revendidos pela lotérica. Determine E(X) e 
o(X). 


Ex. 42 Em uma urna há 10 bolas pretas e 5 bolas brancas. Sacam-se, sem reposição, 6 bolas dessa urna. 
Determine o valor mais provável do número de bolas pretas sacadas. (Dica: encontre para que valores de k temos 


p(k+1) > p(k). 


3.6 Exercícios de Provas 


Ex. 43 (Al 2003.1) Um sistema é formado por 5 componentes independentes e funciona se pelo menos três 
componentes funcionam. A probabilidade de falha de um componente é 0.1. Qual é a probabilidade de falha do 
sistema? 


Ex. 44 (Al 2003.1) Suponha X com distribuição binomial negativa com parâmetros r = 6 ep = 0.8. Determine 
a moda de X e calcule Pr(X < 10). 


Ex. 45 (Al 2003.1) Uma urna contém b bolas brancas e p bolas pretas. Sacam-se, sucessivamente e sem 
reposição, bolas dessa urna até que todas as bolas pretas tenham sido sacadas. Seja X o número de bolas sacadas. 
Determine a função de probabilidade de X. 


Ex. 46 (A1 2004.2) Em um jogo de dados, o participante paga R$25,00 para jogar os dados pela primeira vez 
e R$15,00 a partir da segunda rodada. Ele joga até tirar um 1 ou um 6. Quando isto finalmente acontece, ele 
recebe R$50, 00. 

a) Qual é a probabilidade de que o jogador tenha prejuízo neste jogo? 

b) Qual é o seu lucro (ou prejuízo) esperado? 


Ex. 47 (Al 2004.2) 4 ocorrência de pedidos de conserto em uma empresa de geração de energia é modelada 
como um processo de Poisson de taxa 0.2 por dia (isto significa que o número de pedidos em um período de d dias 
tem distribuição de Poisson com média 0.2d e que, além disso, as quantidades de acidentes em períodos disjuntos 
são independentes). O serviço funciona 24 horas por dia, T dias por semana. 

a) Qual é o número médio de pedidos de conserto em um período de um mês? 

b) Qual é a probabilidade de que não haja pedidos de assistência técnica em uma dada semana? 

c) Em uma semana, qual é o número médio de dias em que há pedidos de conserto? 


Ex. 48 (AS 2004.2) Vários lançamentos de um satélite serão tentados até que o primeiro deles tenha sucesso. 
Cada lançamento custa $12 milhões, mas o benefício de colocar o satélite em órbita é estimado em $75 milhões. 
Cada lançamento tem probabilidade de sucesso p e lançamentos distintos são considerados completamente inde- 
pendentes. 

a) Se p = 0.3, qual o lucro esperado desta série de lançamentos? Qual a variância deste lucro? 


b) Qual o valor mínimo de p para que está série de lançamentos tenha lucro esperado (positivo)? 


Ex. 49 (T2 2005.2) Cada item abaixo define uma variável aleatória. Diga que distribuição discreta você usaria 
para cada variável, incluindo os parâmetros correspondentes. 
EXEMPLO: O número de caras obtidas em 90 lançamentos independentes de uma moeda justa. 
Resposta: X ~ Bin (90,0.5) onde n = 90 e p = 0.5. 
9 Apenas uma vez na história até Março de 2006 a mega-sena pagou mais de R$52 milhões; foi em 10 de Outubro de 1999, quando, 


após acumular 9 vezes seguidas, a mega-sena pagou R$64.905.517,65 (já descontado o imposto de renda) a um grupo de juízes e 
advogados que haviam apostado na “Orixás Loterias” em Salvador. Veja http://www .caixa.gov.br/Loterias/. 
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a) O número de vezes que um aluno faz o vestibular da única faculdade que lhe interessa (a FGV), pressupondo 
que a cada vez ele tenha os mesmos 40% de chance de passar. 

b) O número de clientes que procura Sherlock Holmes em um dia (estima-se que Sherlock receba, em média, 20 
clientes por ano). 

c) O número de questões que um aluno acerta num vestibular de 80 questões com 5 opções cada, onde o aluno 
tenta adivinhar aleatoriamente TO questões e deixa as outras 10 em branco. 

d) O número de dezenas que eu acertei no concurso passado da Sena (meu jogo tinha 10 dezenas; a Sena escolhe 
6 dezenas dentre 60 possíveis, sem repetição). 

e) O número de estudantes (dos 2141 estudantes da FGV) que fazem aniversário hoje. 

f) O número de times cariocas a serem rebaixados no Campeonato Brasileiro, pressupondo que todos os times 
estejam em igualdade de condições (o campeonato tem 22 times, dos quais 4 serão rebaixados; os cariocas são 
Fluminense, Botafogo, Flamengo e Vasco). 


Ex. 50 (A1 2005.2) Acidentes ocorrem na ponte Rio-Niterói a uma taxa média de 18 acidentes por mês (30 
dias). Um dia é bom quando não há acidente na ponte. Qual o valor esperado do número de dias bons por mês? 
/Dica: qual a probabilidade de um determinado dia não ter acidente algum ?] 


Ex. 51 (A1 2005.2) Na roleta em Monte Carlo, há números de 0 a 36 (a roleta é justa, então estes 37 números 
são equiprováveis). Você decide apostar seguidamente no número 13 somente até obter a primeira vitória. A cada 
derrota você perde $10, mas uma vitória equivale a um lucro de 8350. 

a) Calcule o valor esperado e a variância do seu lucro (ou perda) nesta segiência de apostas. 
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b) Calcule a probabilidade de “sair lucrando” desta seqüência de apostas (isto é, de ter lucro positivo). 


Ex. 52 (AS 2005.2) A cada dia de um período de 90 dias, uma determinada ação pode desvalorizar $4 com 
probabilidade 30%, ou subir $2 com probabilidade TO% (suponha que cada dia é independente dos demais). Seja 
Z o número de dias em que a ação subiu. 

a) Qual é a distribuição de probabilidade de Z? 

b) Você compra a ação no início do período e a vende ao final dos 90 dias. Qual o valor esperado do seu lucro? 
c) Estime a probabilidade do seu lucro ser de pelo menos $50 no período de 90 dias (juntando as valorizações e 
desvalorizações de cada dia). 


Ex. 53 (AS 2005.2) Você trabalha no setor de Atendimento ao Consumidor que recebe X reclamações por dia, 
onde X tem distribuição de Poisson com parâmetro E (X) = A = 7.1 reclamações por dia. Seu chefe disse que 
vai estourar aquela champagne importada no dia em que seu setor receber menos de 2 reclamações. 

a) Qual a probabilidade disto acontecer hoje? 

b) Qual o valor esperado do número de dias que você tem de esperar para saborear a champagne? 

c) Qual a probabilidade da comemoração ocorrer nos próximos 90 dias? 


Ex. 54 (T2 2006.1) Você vai prestar um exame oral onde seu professor lhe apresentará uma questão de cada 
vez. A cada questão, ele espera 10 minutos e apenas então você diz a sua resposta. Assim que você acertar uma 
questão, o teste acaba e você passa no curso. Se você não acertar questão alguma num total de 60 minutos (ou 
seja, 6 questões), o teste acaba e você está reprovado. Suponha que a probabilidade de você acertar cada questão 
é 20%, e que acertar cada questão é completamente independente de acertar as outras. 

a) Qual a probabilidade de você passar no curso? 

b) Suponha que 60 alunos com estas mesmas características fazem este exame. Supondo que a aprovação de cada 
aluno é independente da aprovação dos demais, calcule o valor esperado e o desvio-padrão do número de alunos 
aprovados. 

c) Na situação do item anterior, complete a seguinte frase com dois números: “a desigualdade de Chebyshev 
garante que a probabilidade do número de aprovados estar entre e é pelo menos z”, 
d) Seja Z a duração (em minutos) do seu exame oral. Calcule a mediana e o valor esperado de Z. 


Chapter 4 


Variáveis Aleatórias Contínuas 


4.1 Distribuições Contínuas 


4.1.1 Função de Distribuição Acumulada 


Gostaríamos de trabalhar com variáveis aleatórias contínuas, isto é, variáveis cujo espaço amostral é um “contin- 
uum” de valores (por exemplo, o instante exato em que uma ligação telefônica chega ou em que um gol acontece, o 
local de uma estrada onde um acidente ocorre). Para analisar uma variável aleatória contínua, precisamos definir 
a função de distribuição acumulada desta variável, de forma idêntica ao caso discreto: 


Definição 1 A função de distribuição acumulada (função de distribuição; fda) de uma variável aleatória 
X é 


Fy (x) =Pr(X <a) 


Exemplo 2 Imagine uma roleta graduada de O a 12 como um relógio e um ponteiro. Dê um “peteleco” no 
ponteiro e deixe-o girar até parar numa posição aleatória (representada por um número real X de O a 12). 
Se a roleta é “justa”, é razoável supor que não há “preferência” para pontos de um tipo ou de outro!. Que 
probabilidade você acha razoável designar para Pr(X < 6) = F (6) (isto é, qual a chance do ponteiro parar do 
lado direito do relógio)? Se não há preferência entre o lado direito e o esquerdo do relógio, é razoável supor que 
F (6) = Pr(X <6) = 50%. Analogamente, como não há preferências entre intervalos (de mesmo tamanho), é 
razoável supor que F (T) = Pr(X <T)= 5. Com efeito, é razoável supor que a f.d.a. desta variável X é 


O, sex <0 


F(x)=Pr(X<r)= 4608 r< 12 


1, sex >12 


A partir desta função, é fácil calcular a probabilidade de X estar num intervalo qualquer (a,b]. No nosso exemplo, 
para a,b € [0,12], teríamos 


b a b-a 
Pr(a < X <b) = F (b) — F (a) = — -= = 
12 12 12 
l Note que, neste ponto, não sabemos exatamente o que significam “aleatório” ou “preferência”. Por enquanto, use a sua intuição 
— mais tarde seremos capazes de dar uma definição mais precisa destas idéias, usando a linguagem que estamos desenvolvendo. 
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ou seja, a probabilidade de X estar num intervalo de tamanho Ax contido em [0,12] é simplesmente Ax/12. Este 
modelo é chamado de distribuição uniforme no intervalo [0,12]. 

Qual a probabilidade de obter X = a? Estranhamente, temos Pr (X = a) < Pr (X € [a,a +e]) = & para qualquer 
e. Assim, a única probabilidade razoável seria 


Repetimos: neste modelo contínuo, a probabilidade de obtermos X = a é ZERO (qualquer que seja a)! O leitor 
atento perguntará — mas escolheremos um certo número x, não? Qual era a probabilidade de este número x 
ser escolhido? Respondemos: antes de realizar o experimento, Pr(X =x) = 0. Não há contradição aqui — 
simplesmente, probabilidade ZERO não significa IMPOSSÍVEL! Pense em probabilidade ZERO como um evento 
muito muito raro; se repetirmos nosso experimento N vezes e colocarmos n como o número de vezes em que 
X =x, teríamos n/N > 0 quando N > œo (mesmo que n £ 0). 


Repetimos: probabilidade ZERO não implica IMPOSSÍVEL?. Analogamente, Pr (X £ x) = 1, mas o evento 
X £ x não acontece necessariamente SEMPRE. 
A propriedade a seguir é completamente análoga ao caso discreto — pense no seu significado: 


Proposição 3 Se F (x) é a f.d.a de uma variável aleatória real X, então 


F é não-decrescente 


F (—0) = Pr (X < —œ) = 0 e F (+œ) =Pr(X € R)=1 


Pr(a < X <b)=F(b)— F(a) 


Note que no caso contínuo Pr (a < X < b) = Pr (a < X < b), pois Pr (X =a) =0. 


4.1.2 Quantis 


Analogamente ao caso discreto, temos: 


Definição 4 O q—quantil de uma variável aleatória contínua X é qualquer valor zq onde a função acumulada 
“acerta” q. Formalmente 


F(z) =q 


De fato, esta definição é mais simples do que a do caso discreto, pois agora a f.d.a não dá “saltos”. Novamente, 
é comum chamar 20.25, £0.5 € 40.75 de primeiro, segundo e terceiro quartis da variável aleatória X. O segundo 
quartil também é comumente chamado de mediana. 


Exemplo 5 Se X tem distribuição uniforme em [0,12], seus quartis são: 


T 


F(z) = 025 5 =0.28 4 r3 
z 

(x) 0.5 F 0.5 q =6 
ğ 

F(z) = 0.75 T 0.75 r=9 


ou seja, os quartis da distribuição uniforme em [0,12] são 3, 6 e 9 respectivamente. 


2 Ainda vale que Pr (Ø) = 0, isto é, IMPOSSÍVEL implica PROBABILIDADE ZERO. Mas a volta não vale, nunca valeu, nem no 
caso discreto! Por exemplo, A e B são eventos mutuamente excludentes se, e somente se, AN B = Q, e isto implica Pr (AN B) = 0. 
No entanto, podemos ter Pr (AN B) = 0 sem ter AN B =f! 
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4.1.3 Função Densidade de Probabilidade 


Se dividirmos a probabilidade de X estar num intervalo |x, x + Ax] pelo tamanho do intervalo, temos a densidade 


média de probabilidade? 
Pr(x < X <x+Az) _ F (x+ Azr)-— F(z) 


Ax Ax 


Para calcular a densidade de probabilidade em um ponto, devemos tomar Ax > 0. Então!: 


Definição 6 4 função densidade de probabilidade (fdp) de X é a derivada da função acumulada” : 


fx (x) = limao Pete FO) E pi (a) 


Exemplo 7 Tomávamos X de maneira uniforme em [0,12]. Se a,b € [0,12], tínhamos: 


Pr(a<X <b) b—a 1 


Az be) 2 


então a densidade de probabilidade é 


dest a Pr(r<X<av+ As) 


1 
lim Ar =T (para O < x < 12) 


Para ser completo, temos 
5. para 0<a<12 
O, caso contrário 


ra=] 
Pelo Teorema Fundamental do Cálculo, é imediato notar que: 


Proposição 8 Dada a f.d.p de uma variável aleatória contínua X, encontramos probabilidades pela fórmula 


Pr(a < X < b) = F (b) — F (a) = f? f (©) dt 


Em particular, como F (—o0) = 0, note que 


F (2) = Pr(X < £) = f7 n f (C) dt 


Repetimos: a f.d.p. NÃO mostra probabilidades — sua INTEGRAL DEFINIDA (isto é, a ÁREA sob o gráfico 
da f.d.p.) é que é uma probabilidade”. Intuitivamente, a f.d.p. é maior nos pontos onde há mais “probabilidade” 
— mas este paralelo não funciona bem pois, em cada ponto, a probabilidade é ZERO. Talvez seja melhor pensar 
que Pr (X = z) seja “f (x) da” (ao invés de f (x)). 

A propriedade a seguir é novamente análoga à do caso discreto; pense no seu significado. 


3A densidade linear média de massa de um arame é a massa total deste arame dividida pelo seu comprimento total, com unidade 
Kg/m. Densidade média de carga elétrica seria carga total sobre comprimento total, com unidade C/m. Como probabilidade não 
tem unidade, a unidade de densidade de probabilidade é 1/ (unidade de X). 

1Se o arame da nota acima não fosse homogêneo, falaríamos na densidade linear de massa em um ponto, a saber, limA £0 S4, 
onde AM é a massa e AL é o comprimento de um pedacinho de arame em volta daquele ponto. 

5 Pelo menos onde esta derivada existir. Nos pontos isolados onde F” (x) não existe, você pode definir f (x) da maneira que quiser, 
pois isto não afetará em nada o modelo probabilístico. 

éUma interpretação da f.d.p. vem da aproximação linear: 


Pr (x < X < z + Ar) = F (x + Az) — F (x) x f (x) Az 


isto é, “a quantidade de probabilidade no intervalo |x, x + Az] é proporcional a f (x) e Ax para Ax pequeno”. 

Se você preferir, como f(x) = F’ (x), temos que “a f.d.p. diz quanto a f.d.a. está crescendo no ponto a”. Compare com o caso 
discreto — naquele caso, os “saltos” da f.d.a. eram exatamente os valores da função de probabilidade. Neste sentido, a f.d.p no caso 
contínuo é parecida com a função de probabilidade do caso discreto. 

Outro paralelo: faça um gráfico de barras para a função de probabilidade de uma variável discreta X, onde a área (ao invés da 
altura) da barra sobre X = k é a probabilidade Pr (X = k). À medida que o espaço amostral de X aumenta para incluir mais e mais 
valores possíveis de k, este gráfico de barras se aproximará da função densidade f (x) (da mesma forma que as “somas de Riemann” 
de uma função se aproximam de sua integral definida)! 
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Proposição 9 Se f(x) é a fdp. de uma variável aleatória real X, então para todo x real: 
0< f(x) 
JS tO t=i 


Z 


Definição 10 A moda de uma variável aleatória é o valor x onde a densidade f (x) é máxima. 


Exemplo 11 Dizemos que a variável contínua X tem distribuição de Cauchy quando sua f.d.p. é dada por 


1 
= Ca 
1 +g? 


fa) 


Calcule o valor da constante de c e a fd.a. de X. Calcule então Pr(0< X < 1), os quartis e a moda de X. 
Solução: devemos ter 


C dz = 1 > c(arct tan ( jais = 
T q da c (arctan œ — arcta 00 c 


pois 
1 
/ ET z742 =arctanr +C e arctan (+00) = - 
A f.d.a. será 
æ- f 4 1 E 1 i 1 
F (x) = I -I yr” = (arctan t)” à = = (arctan z | 5) = ——— S 
Assim, 


_ arctanl —arctanO — 0 


Pr(O<X<D=F()-F(0) =-=25% 
T 
Os quartis vêm de 
1 arctang  —1 T 
ij > Ds a poa joe 
(x) 7 = i q=tan (= 
1 rctan £ 
F(x) = COCO gez=tan(0)=0 
2 T 
3 t 1 
F(z) = ze TT =3®v=ta(7) =1 
ou seja, os quartis são —1, 0 e 1. Enfim, para encontrar a moda precisamos encontrar o máximo de Te isto é, 


o mínimo de 1 + x° que está claramente em x = 0. Assim, a moda” é O (vide figura abaixo). 


2 x 4 


F.d.p da distribuição de Cauchy F.d.a. da distribuição de Cauchy 
Note como a probabilidade do intervalo [0,1] (isto é, Pr(0O< X < 1)) pode ser vista como a área sob o gráfico da 
f.d.p entre x = 0 e x = 1 (região em azul no gráfico da esquerda) ou como o tamanho da imagem do intervalo 
[0,1] por F, isto é, F (1) — F (0) (segmento vertical em azul no gráfico da direita). 


í Você pode derivar f(x) = TE e igualar a 0, mas neste caso nosso argumento evita contas chatas. 
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4.1.4 Funções de Variáveis Aleatórias Contínuas 


Seja X uma variável aleatória contínua cujas f.d.p e fd.a. são f(x) e F (x), respectivamente. Seja Y = h (X). 
Como encontrar as f.d.p. g (y) e f.d.a. G (y) desta nova variável? 
A solução é procurar construir eventos equivalentes usando X e Y. Afinal: 


Y <y 4 h(X)<y 
Resolvendo a desigualdade h (X) < y encontramos X € I para algum subconjunto T da reta real. Então 
G (y) =Pr(Y <y)=Pr(X €T) 
e esta probabilidade pode ser calculada a partir de F (x) (a f.d.a. de X). Tendo G (y), é fácil calcular g (y) = G” (y). 


Exemplo 12 Suponha que X tem distribuição uniforme em [0,1]. Qual é a f.d.p. da variável de Y = VX? 
Solução: seja G (y) a f.d.a. de Y. Como é certo que 0< Y < 1, então: 
G (y) 
G (y) 


O para y < 0 


1 paray >1 
Agora, para O < y < 1, temos 
Y<yovX<yoex<y 
Como a distribuição de X é Fy (x) =x para0 < z< 1: 
G (y) =Pr(Y < y) =Pr (X < 4°) = Fx (4°) =4° 
Derivando esta expressão, encontramos a f.d.p. de Y 
g (y) = 2y para 0<y<1 


Juntando tudo 
o 2y se0<y<1 
9 (9) = l O caso contrário 


Intuitivamente, isto significa que, se tomarmos números aleatórios entre O e 1 de maneira uniforme e então 
extrairmos suas raízes quadradas, estes novos números não se espalham uniformemente entre O e 1, mas “se 
concentram mais” perto de 1 (onde está a moda de Y). 


Proposição 13 Seja X uma variável aleatória de densidade f(x) e seja Y = h(X) onde h é uma função 
crescente. Então a densidade g (y) da variável Y satisfaz 


onde x = h™! (y), ou seja, 


Prova. Seja y = h (x). Então 


Como hA é crescente 
ou seja 


Derivando com relação a x (e usando a regra da cadeia): 


f (2) 


LOOOTO = r 


E 
Note que, se h é decrescente, vale a mesma fórmula trocando h’ (x) por |W (x)| = —h' (a). 
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Exemplo 14 Voltemos ao exemplo anterior: X é uniforme em [0,1] e Y = h(X) = vX; podemos usar a fórmula 
acima pois h é crescente no intervalo [0,1]. Então: 


go) = EE = LO = aver (a) 
T/E 


onde y = h(x) = x. Substituindo x e usando que f (x) = 1 para 0 < x < 1 e f (x) = 0 caso contrário, temos 


o 2y se0O<y<l 
9 (9) = l 0 caso contrário 


Exemplo 15 Seja X uniforme em |-1,1] e sejam Y = X? e W = |X|. Encontre as densidades de Y e W. 
Em primeiro lugar, não podemos usar nossa fórmula pois as funções acima não são monótonas. Por outro lado, 
se 0 < y< 1, temos 


vı 
dz = Vy => fy (4) = 5- 


Pr <y =Pr (X? sya) =P Xs vD] NG 


Para y < 0 é claro que Pr (Y < y) =0 e, para y > 1, temos Pr (Y < y)=1. 
Para 0 < w < 1, temos 


w 


Pr (W < w) = Pr (|X| <w)= f 


=w 


il 
a dx =w > fw (w) = 1 > Wé uniforme em [0,1] 


F.d.p e f.d.a de Y 


4.1.5 Exercícios ilustrados 
Ex. 1 A densidade de uma variável aleatória X é 


ra= 


kx, se x € [0,1] 
0, caso contrário 


Encontre o valor de k, a f.d.a. de X, a moda e os quartis de X. 
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Ex. 2 4 densidade de uma variável aleatória X é 


ksing, se x € [0,7] 
0, caso contrário 


Encontre o valor de k, a f.d.a. de X, a moda e os quartis de X. 


Ex. 3 É comum usar a distribuição de Pareto? de parâmetros A > 0 e a > 0 para descrever a distribuição 
de riquezas X entre indivíduos de uma população. Sua densidade é dada por 


l ke l sex>A 


O caso contrário 


f (z) = 
Encontre o valor de k em função de A e a. Em seguida, mostre que a f.d.a. de X é dada por 


Po =4 1— (4º sex>A 


0, caso contrário 


e encontre a mediana de X. Qual o significado de A? 


É x 


F.d.p. Pareto para A = 1 e a = 1,2,3 F.d.a. Pareto para A = 1 ea = 1,2,3 


Ex. 4 Se X tem distribuição uniforme em [0, 12], encontre as funções de distribuição e, a partir destas, as funções 
de densidade, das seguintes variáveis: 


a) Y= ğ. 
b) Zed 
JW=(X-6) 


Ex. 5 Se X tem distribuição uniforme em [0,27], calcule as funções de distribuição e, a partir destas, as funções 
de densidade das variáveis Y = cos X eZ=sinX. 


Ex. 6 a) Seja X uma variável aleatória com função de distribuição F (x) = e Seja Y = tkr. Qual é a 
distribuição de Y ? 
b) Em geral, seja X uma variável aleatória cuja função de distribuição é F (x). Seja Y = F (X) (a mesma F). 
Qual é a distribuição de Y ? 

8Os parâmetros A e a não parecem ter nome universal. De acordo com a Wikipedia, a distribuição de Pareto também aproxima 


outros fenômenos, como “tamanho de vilas /cidades”, “tamanho de arquivos transmitidos via Internet”, “volume de óleo em reservas 
naturais”, “tamanho de meteoritos”, etc. 
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Ex. 7 Em hidrologia, usa-se a distribuição de Kumaraswamy cuja f.d.a. é dada por 


O, sex <0 
Fx (x) = [-(1-0º)],se0<2<1 
|, ser > 1 


/a 
Encontre seus quartis e sua f.d.p. e mostre que a moda é (=) ; 


fo) | 


x 


Fdp. Kumaraswamy para a = 2 e b = 3 F.d.a. Kumaraswamy para a = 2 e b = 3 


Ex. 8 A distribuição logística (normalizada) é baseada no modelo logístico e tem f.d.a. dada por 


1 


Fe) = Tres 


Encontre sua f.d.p., seus quartis e sua moda. Se X tem tal distribuição, calcule Pr(-1< X <1). 


4.2 Valor Esperado e Variância 


4.2.1 Valor Esperado 


Lebremos que, no caso discreto, tínhamos 


u = E(X)= > k.Pr(X =k) 


k=-—oco 
Var(X) = E (x = m’) 
No caso contínuo, o somatório vira uma integral, e Pr (X = t) ~ f (t) dt, então: 


Definição 16 Se X é uma variável aleatória com densidade f (x), definimos seu valor esperado (valor médio, 
esperança), por 
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Todas as propriedades obtidas no caso discreto continuam valendo trocando somatórios por integrais: 


Proposição 17 Se Y = h(X), então 


Prova. Provemos esta propriedade apenas no caso em que h é crescente. Neste caso, sabemos que g (y) dy = 
f(x) dz. Assim, usando a substituição y = h (x): 


Ev= f woa= f irea 


— 00 


Proposição 18 Sejam a e b constantes quaisquer. Então 


E (aX +b) =aB(X)+b 


Em particular: 


E(b) = b 
E(aX) = aE(X) 
E(X-ux) = 0 
Prova. Seja f (x) a densidade de X. Então: 


E(ax +) = | (ax +) f(a)de =a | efe) do + f f(x)dx = aE (X) +b1=aE(X)+b 


— 00 — 00 


E 
Mais tarde, mostraremos também que, se X e Y são duas variáveis aleatórias, então 


E(X+WN=EQO)+E(Y) 


4.2.2 Variância 


Pelos mesmos motivos do caso discreto, uma boa medida de dispersão de uma variável aleatória contínua X é a 
sua variância: 


Definição 19 A variância e o desvio-padrão de uma variável aleatória X com densidade f(x) e média 
E(X) = u são 


Var (X) = E ((X - m?) = S2, (2-0)? f (a)do 
o (X) = Var Œ) | 


Proposição 20 Temos 


Var (aX +b) = a°Var (X) 


Var (X) = E (X?) — (E (X)? 


Prova. A demonstração do primeiro fato é 100% idêntica à do caso discreto! Copiando e colando, sendo 
Y = aX +b, temos: 


Var(Y) = E (Y ny) = E (((0X +b) - (anx +?) = 


= E G (X — ne?) =0 E (x = ne?) =aVar(X) 


4.2. VALOR ESPERADO E VARIÂNCIA 


T1 


A segunda também é análoga ao caso discreto, trocando somatórios por integrais: 


Var (X) a (e-ur) flade f g’ 


f(z o)do 2n f zf (x)dt+ p? = E (X?) - 


Mais tarde, mostraremos que, |se X e Y são independentes, Var (X +Y) = 


Var (X) + Var (Y) 


Para terminar nosso repeteco do caso discreto, aqui está a versão “contínua” da desigualdade de Chebyshev: 


Teorema 21 (Desigualdade de Chebyshev) Seja X uma variável aleatória com valor esperado u = E (X) e 


desvio-padrão o = o (X). Então 


ou seja 


Pr(u-ko<X<u+ko)>1- 


Pr (|X — u| > ko) < $ 


Es 
k2 


Prova. E o mesmo truque do caso discreto, trocando somatórios por integrais. De fato: 


Var(X) = 


IV 


f.e- todo = 


Penn 


u+ko 
x) dz + f (£ — w)? 
u—ko 


A (ko)? f (x) desot f 


ko 
+ko 


(ko)? f (x) dz = 


Exemplo 22 Dizemos que X tem distribuição uniforme no intervalo | 


quando a densidade de X é dada por 


Pr (|X — 


ro=[ 


=. 


u| > ko) < 73 


c, para x € |a, 8] 
0, caso contrário 


Calcule c, E (X 


u—ko oo 
2.2 — ko? o E 
k“ (i fot f fod) =a Pr (|X — ul > ko) 


), Var (X), o (X) e a f.d.a. F (x). 
Solução: Como a área sob a curva f (x) tem de ser 1, é claro que c = q. Então 
BP-o21 B+a 
E(X) = f t) dt = [ro P-a: 3 
> 2 = = 1 BPragro 
e, = ema pá E b-a as 3 
Prapro (Bro)? Bro-zag (B-a? 
VARE = Etapta (frs) E “~u 
o(X) = L 
Fo) = foste t)dt = fra a: para x € [a, p]. Portanto 
O, sex<a 
Fir) = da seu<r<p 


a, 8] (representado por X ~ U (a, 8)) 
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a se x € [0,3] 


n a Fla) z l 0, caso contrário 


. Calcule E (X) e Var (X). 


3 
E(X) = ftid = tgd = 5) = 2=225 
3 
E(X?) =f d= g| = 4 =54 


Var (X) = E (X?) - [E (X)? = Z - (2)? = Z = 0.3375 


O, sex<0 


"TE Calcule c, F (x), E(X) eo (X). 


Exemplo 24 Seja f (x) = l 


n cede = =e] =04+ce!=ec>c=1 
0 
F(z) = rga= f e tdt = —e*] i =1- e” para x > 0 
— 00 (0) 


— 00 


Var(X) = 2-P=1>50(X)=1 


4.2.3 Exercícios 
Ex. 9 4 densidade de uma variável aleatória X é 


eed 


2x, se x € [0,1] 
0, caso contrário 


Mostre que E (X) = é eVar(X) = +. 


Ex. 10 Calcule E(X) eVar(X) onde X é uma variável aleatória com densidade dada por 


f=] sinz, sea E [0,7] 


O, caso contrário 
Ex. 11 Mostre que a média e a variância da distribuição de Pareto de parâmetros A>0 ea > 0, de densidade 


aA “rT! sex>A 
0 caso contrário 


Ho=4 


são, respectivamente, 


E(X) = SA (desde que a >1) 
A2 
Var(X) = a; (desde que a > 2) 
a-i a- 


Ex. 12 Mostre que a distribuição de Cauchy, cuja densidade é dada por 


1 1 
mil+r? 


f(x) = 


não tem valor esperado (pois as integrais correspondentes divergem). 
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Ex. 13 Seja X uma variável aleatória e considere a função f (t) = E (x — 9). Mostre que f(t) tem um 
mínimo para t = E(X). 


Ex. 14 Seja X uma variável aleatória e considere a função g (t) = E (|X — t|). Mostre que g (t) tem um mínimo 
quando t é a mediana de X. 


Ex. 15 Use integrais duplas (trocando a ordem de integração) para mostrar que, se X é uma variável não- 
negativa, então 


EG)=[ P> dt 


Ex. 16 O coeficiente de curtose de uma variável aleatória X com valor esperado u = E (X) e desvio-padrão 
o =o (X) é definido por 
E ((X — nº) 
pr: 
a) Use que Var(Y) = E (Y?) - (E Y)? > 0 com um Y apropriado para mostrar que o coeficiente de curtose é 


sempre maior ou igual a 1. 


b) Mostre que o coeficiente de curtose da distribuição uniforme no intervalo |a, b] é E 


4.3 Exercícios de Provas 


Ex. 17 (A1 2004.2) A renda de um indivíduo escolhido ao acaso em uma população tem uma função de dis- 
tribuição acumulada dada por 
0, se y < 100 


ra= 1- (180), se y > 100 


y 


Este modelo probabilístico é conhecido como modelo de Pareto, com parâmetros a = 2 e 8 = 100. 
a) Qual é a densidade desta distribuição de probabilidade? 

b) Qual é a probabilidade de que um indivíduo escolhido ao acaso tenha renda maior que 200? 
c) Qual é o valor médio da renda na população? 


Chapter 5 


Principais Distribuições Contínuas 


5.1 Distribuição Uniforme 


Definição 1 Dizemos que a variável aleatória X tem distribuição uniforme no intervalo |a,b] (denotada 
por X-Ula,b]) quando sua densidade é dada por 


a <r< 
Ho=4 RA 


caso contrário 


ou seja, sua função de distribuição acumulada é 


0, sex<a 


F(ax) = E SC SELL 


1, seb< zx 


No capítulo anterior, mostramos que: 


Proposição 2 Se X ~ U [a,b] então 


Note que, tomando U = Ka, temos U ~ U [0, 1], e, em particular, E (U) = > eVar(U) = b Conversamente, 


se U ~ U [0,1], tome X = (b — a) U + a e obteremos X ~ U [a, bt. 


5.2 Distribuição Exponencial 


Suponha que eventos ocorram de acordo com um processo de Poisson à taxa média de À eventos por unidade de 
tempo (digamos, por hora). Dado um certo intervalo [0, t], seja X o número de eventos ocorridos neste intervalo. 
Sabe-se que X ~ Poi (At), isto é, 


k! 
Por outro lado, seja T o tempo de ocorrência do primeiro evento. Note que T > t é equivalente a X = 0 
(isto é, o primeiro evento ocorrer depois de t horas é equivalente ao número de eventos em t horas ser zero). Assim 


Pr(T<)=1-Pr(T>0)=1-Pr(X=0)=1-€4 


1Em Excel, a função ALEATÓRIO () retorna um número aleatório U cuja distribuição é uniforme em [0,1]. Usando a propriedade 
acima, é fácil simular distribuiçãoes uniformes em outros intervalos. Por exemplo, se queremos que X venha da distribuição uniforme 
em [12,60], em Excel basta fazer 
= 48+ ALEATÓRIO() + 12 
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Assim, T segue uma distribuição cujas funções acumulada e densidade são, respectivamente 


F(t) Pr(T < t) =1-— e™™ (para t > 0) 
tt) = Fls" (para t > 0) 


Definição 3 Dizemos que a variável aleatória T tem distribuição exponencial de parâmetro À (denotada 
T ~ Exp())) se sua densidade é dada por 


s9=[ Ae set > 


0, caso contrário 


ou seja, sua função de distribuição acumulada é 


0, set< 0 
ro |=€aei 0 


FD.PeF.D.A. exponencial com À = 2 


Proposição 4 Se T ~ Exp (A), então 


A? “A 
Prova. 
oo Ät t=00 
E(T) = f lhe Pais ( te E SE 
0 A Ji A 
di -e id 2 2 
EMT) = i Pede = (te N] e + af te™™dt = (0 — 0) + dt = 
0 0 
1 1 
Var(T) = E(T)-(E(D)) = e o(2)=5 
n2 
Ft) = 0551-04-05 = 


Note o paralelo entre todas as fórmulas obtidas para a distribuição discreta Geom (p) (quantos experimentos 
fazer até o primeiro sucesso) e a distribuição contínua Exp (À) (quanto tempo esperar até o primeiro “sucesso”): 


Variável FDA. 1-F.D.A. F.D.P. E(X) Var(X) Med(X) 
Geom (p) Pr(X<k)=1-0"  Pr(X>k)=¢" Pr(X=k)=p(1-p)" 4 E + 
Exp(A) Pr(T<t)=1- (e>) Pr(T>t)=e™ f(t) =A (e>) É Er m2 


Exemplo 5 Sua empresa recebe 20 ligações telefônicas por dia (em média), no horário comercial de 8h às 18h. 
Usando um modelo de Poisson para estas ligações, qual a chance de a primeira ligação do dia chegar antes das 
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9h? E entre 10h e 12h? 

Solução: Seja T o tempo de chegada da primeira ligação, em horas, a partir das 8h (isto éT = 0 às 8h da 
manhã). A distribuição de T será uma distribuição exponencial de parâmetro À = 20/10 = 2 ligações por hora. 
Então as probabilidades pedidas são 


= 1 — e? = 86.466% 
Pr(2<T<4) = F(4)—F (2) = e~t — e`’ = 1.798% 

Exemplo 6 Suponha que um equipamento funciona à taxa de 0.5 falhas por hora, isto é, o tempo T da próxima 
falha satisfaz T ~ Exp (0.5). Calculemos o tempo esperado da primeira falha, a probabilidade do equipamento 
não falhar em 4 horas e a probabilidade de haver no máximo 1 falha em 4 horas. Temos 


E(T) = 1/0.5 = 2 horas 
F(T) = i-0"s Pr(T >4)= 1- F (4) = e°? = 13.53% 


Enfim, se X é o número de falhas nas próximas 4 horas, sabemos que X ~ Poi (2). Então 
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Pr(X < 1)=Pr(X =0)+Pr(X =1) =e? (1+5) = 3e? = 40.60% 


Exemplo 7 O tempo de falha em horas de um equipamento é T ~ Exp (0.25) — isto é, o valor esperado do tempo 
de falha é de 4 horas. Se o equipamento falhar em 4 horas ou menos, você perde $3000, mas, se ele durar mais 


do que 4 horas, você ganha $3000. Qual o lucro esperado de usar este equipamento? 
—3000 se T < 4 


3000 seT>4 ` Portanto: 


Solução: seja L o lucro em reais. Então L = 


E(L) 


—3000 Pr (T < 4) + 3000 Pr (T > 4) = —3000F (4) + 3000 (1 — F (4)) = 3000 — 6000F (4) = 
= 3000 — 6000 (1 - Eno = 6000! — 3000 = —$792.72 


Proposição 8 Se T ~ Exp(N)eY = aT, então Y ~ Exp (A/a). 


Prova. De fato, 


a a 


fy (y) = pi qe = (>) elh 


que corresponde à distribuição exponencial de parâmetro A/a. m 


Corolário 9 | Se T ~ Exp (A) então AT ~ Exp(1) | 


5.2.1 Exercícios 


Ex. 1 Seja U ~ U [0,1]. Encontre as f.d.a., as f.d.p. e os valores esperados de: 


a) A=U +2 b) B =U’ )C= 


d)D=In(U+4+1) e E=|U-4 pr=(U-1? 
Ex. 2 Suponha que U ~ U [0,1]. Qual a probabilidade da equação Ux? — 5Ux + 4 = 0 ter raízes reais? 


Ex. 3 Seja X ~ U [a,b]. Para que escolhas de c e d tem-se que U = cX +d tem distribuição uniforme em [0,1]? 
[Dica: há duas possibilidades!/ 


Ex. 4 Suponha que T ~ Exp(5)eY =3T + 4. Calcule E (Y), Var (Y), a f.d.a. e a f.d.p. de Y. 
Ex. 5 Seja T o tempo (em dias) da próxima falha do seu ar condicionado. Suponha que T ~ Exp (2). Determine 


(e tente interpretar) E (T), o (T), a f.d.a. de T, a função de sobrevivência de T (isto é, R(t) = Pr (T > t)) 
e os quartis de T. 
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Ex. 6 4 vida de um equipamento tem distribuição exponencial com média 1000 horas. Qual a garantia máxima 
que pode ser dada pelo fabricante para que pelo menos 99% dos equipamentos fabricados não falhem durante a 
garantia? 


Ex. 7 A vida de um equipamento tem distribuição exponencial com média 1000 horas. Um equipamento com vida 
superior a 800 horas dá lucro de $1000 mas um equipamento com vida inferior a 800 horas dá prejuízo de $500. 
Qual o lucro esperado deste equipamento? 


Ex. 8 Suponha que T ~ Exp(1). Seja f (n) = E (T”) onde n =0,1,2,.... Calcule f (n+ 1) em função de f (n) 
e, a partir daí, deduza uma fórmula para E(T”). 


Ex. 9 a) Prove que a distribuição exponencial não tem memória, isto é, se T ~ Exp (A), então 
Pr(T>r+s|T >r)=Pr(T >s) 


para quaisquer r, s reais positivos. Compare esta propriedade com a propriedade semelhante da distribuição 
geométrica. 

b) A vida de uma bateria tem distribuição exponencial com média 500 horas. Você precisa que a bateria funcione 
sem falhas durante 24 horas, mas, embora ela esteja funcionando neste instante, você não sabe por quanto tempo 
ela já foi usada. É possível determinar a probabilidade de ela pifar nas próximas 24 horas? Em caso positivo, 
qual é esta probabilidade? 


Ex. 10 Suponha que o tempo T (em minutos) de espera até um ônibus passar pelo ponto onde você está tem 
distribuição Exp (55) (isto é, E(T) = 30). Você aguardou 60 minutos e o ônibus ainda não passou. Qual o 
valor esperado do tempo que você ainda tem que aguardar? O que este exemplo te diz sobre a aplicabilidade deste 
modelo para o tempo de espera por transporte urbano? 


Ex. 11 Seja Y ~ Ul[0,1]. Encontre a distribuição de Z = —InY. Em EXCEL, simule 1000 amostras desta 
variável Z e calcule a média destas amostras. Esta média está longe do valor que você esperava? 


Ex. 12 Você compra duas lâmpadas para colocar na sua sala. Os tempos de vida destas lâmpadas são inde- 
pendentes e dados, em meses, por Ty ~ Exp(4) e To ~ Exp(5) (isto é, E (T1) = 4 e E (To) = 3). Qual a 
probabilidade de ambas as lâmpadas ainda estarem funcionando daqui a um mês? E daqui a 3 meses? Seja T o 
tempo durante o qual ambas as lâmpadas funcionam ao mesmo tempo. Qual é a distribuição de T? 


Ex. 13 Suponha que U ~ U [0,1] e V ~ U [0,1] são independentes. Seja X = max (U,V). Encontre a fd.a., a 
f.d.p. e o valor esperado de X. 


Ex. 14 Suponha que Ty ~ Exp(à1) e To ~ Exp (2) onde Ty e To são independentes. Seja T = min (Ti, T2). 
Mostre que T ~ Exp (A + Às). 


Ex. 15 Considere um processo de Poisson com uma taxa de À eventos por hora. Seja X o número de eventos 
ocorridos num intervalo de tempo [0,t]. Então X ~ Poi (At). 

a) Calcule Pr (X > 2). 

b) Sendo T o instante em que o segundo evento acontece, explique porque 


Pr(T < t)=Pr(X > 2) 
. Ate, parat >0 
c) Mostre que a f.d.p. de T é f(t)= l 0. cato Pd 


Esta distribuição é um caso particular da distribuição gama a ser estudada a seguir. 
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5.3 Distribuição Gama 
5.3.1 A função Gama 


Façamos uma breve pausa para introduzir as principais propriedades da função T. 


Definição 10 Para a > 0, definimos a função T (a) como 


T (a) — le zle dr 


Proposição 11 Sempre que as integrais acima convergirem, vale 
I (p +1) = pr (p) 
Prova. a o 
P(p+1)= f sre “da = (-2e "| +o f q le “de= (0 — 0) + pr (p) 
0 0 
E 


Proposição 12 Para n natural positivo, vale 


T(n)=(n-—1)! 


Prova. Por indução: vale para n = 1 pois T(1) = To e“dr=1=0!;eo passo de indução é: 
se I (k) = (k — 1)!, então P(k +) =kT(k) = k((k— DD) =k! 
E 


Nota 13 Como a integral que define T (x) só converge para x > 0, usa-se a propriedade I (p) = T (p + 1) /p 
recursivamente para definir T (x) quando x < 0, isto é 


P(z+n) 


To = ICESDICES) CEE PICESTEE) 


onde n é escolhido de forma que x+n > 0. Com esta definição, o gráfico de T (x) fica assim 


1 
w 


Em outras palavras, a função T (x) é uma generalização da função fatorial para x € R e, portanto, cresce 
extremamente rápido para x > 2. 


Proposição 14 Temos 
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Prova. Seja I a integral imprópria acima. Então 


P = (/ e= dn) (/ eva) = f e7% -8 dA = J e" rdrdo = 
0 0 R2 o Jo 


Il 
z 
N| 
a 
[en] 
N q 
l 
a 
“D 
| 
N| A 
Ps 
© 
+ 
(SO 
S 
|l 
ea 
~= 
|l 
[$ 


Portanto 


1 O aTe o 7 eee o o0 a? E iG o 
r(5) f T” / e Qui) = f 2e du =23T = y7 


5.3.2 Distribuição Gama 


Mantendo o processo de Poisson da seção anterior, seja agora Z o tempo de ocorrência do n-ésimo evento 
e X o número de ocorrências no intervalo [0, t]. Teremos 


n—1 n—1 AH” 
Pr(Z >t) = Pr(X<n)= XO Pr(X =4) =y A 
k=0 k=0 
Pr(Z<t)=1-Pr(X =i eo QD" 
> Pr(Z<t)=1-Pr(X<n)=1-e Da 
k=0 
Assim, a f.d.a e a f.d.p de Z seriam 
n—1 k 
pas me No (A) 
F (t) 1 E, za 
k=0 
n—1 k n—1 k—1 
= gi No (àt) a yo RM A 
k=0 k=0 


jÑ 3 O! GOTA aa Nan 
i ! ! (n=1)! (n-=1)! 


Definição 15 Sejam a, A > 0. Dizemos que a variável aleatória Z tem distribuição Gama de parâmetros a 
e 8 (denotada Z ~T (a, À)) se sua densidade é dada por 


A% 4a—l1p—àt 
GammaDen (t) = Mot e se É 20 
O, caso contrário 


ou, no caso específico em que a =n é natural, 


A” n—1,—At 
mnt t>0 
GammaDen (t) = ¢ (7-1)! er, a 2 
O, caso contrário 


Note que esta é, de fato, uma f.d.p, já que 


oo A di a-1,—X A E mal cado 1 Js 
fsou- ol (At) dt oh e N TO 1 


onde tomamos x = At. 
Também note que, tomando a = 1 na distribuição Gama, naturalmente ficamos com 


f (8) = Ae 


uma distribuição exponencial de parâmetro À (que é a f.d.p. do tempo de ocorrência do primeiro evento de um 
Processo de Poisson). 
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Prova. 


= ii A? a-l .—At ea 1 Ji a —t 
E(Z) 1 tra e w= ia) j (At) “e “dt 


Fazendo x = At 


A AT (a) A 
Analogamente 
1 e E 1 = a 1 (a+1)a 
E Z2 = f pett Att = / a+1 zd p T L2 = 
Er = mao) Me mah É ara e 
DA 2 
2 af+a a a va 
Var(Z2) = E(Zº) -(E(Z) = a q a(z) = = 
Enfim, derivando a densidade e igualando a 0 
FA = eos ((a E E cai ME =0> 
T (a) 
— 1 
=> a- 1-A 0st para œ > 1 


Note os paralelos entre Y ~ NegBin (n, p) (que é o número de experimentos de um Processo de Bernoulli até 
o n-ésimo sucesso) e Z ~ Gamma (n, A) (tempo de ocorrência do n-ésimo sucesso): 


Variável 1-F.D.A. 


E(X) Var(X) 
NegBin(n,p) Pr(Y > k)=Pr(X < n) onde X ~ Bin (k, p) A me 
Gamma (n, à) Pr(Z>t)=Pr(X < n) onde X ~ Poi (At) & 37 


Proposição 17 | Se X ~ Gamma (a, A) e Z = AX, então Z ~ Gamma (a,1). 


Prova. De fato, 


L E E E (Meio qem 
Ed ad Ara) e To) ro 


que é a f.d.p. da distribuição Gamma (a, 1). Por este motivo, diz-se que o parâmetro À é apenas um parâmetro 
de escala desta distribuição. E 
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5.4 Distribuição Normal 


É a distribuições mais importante da Estatística, devido ao Teorema Central do Limite (que veremos mais tarde). 
Foi usada por De Moivre em 1734 como aproximação da Distribuição Binomial para n grande (que veremos mais 
tarde); por volta de 1800 Gauss utilizou-a para fazer análise de erros (motivo pelo qual esta distribuição é também 
chamada de Distribuição Gaussiana). 


Definição 18 Dizemos que uma variável aleatória X tem distribuição normal com parâmetros u e o? (denotado 
por X ~x N (u,02)) quando sua f.d.p é dada por 


f(x) = NormalDen (x) = 


Note que f(u+h) = f (u— h), isto é, a densidade é simétrica com relação a x = u. Note também que a 
função acima é, de fato, uma densidade de probabilidade, já que, fazendo z = =£, 


o (x — u) e O di = 
l aim a d (eË) di Tla (-5) de 


Agora, tomando z = '2t: 
Re o 1 o. 


pela última proposição da seção sobre a função Gama. 


então Z = 2 N (0, 1). 


Proposição 19 [se Xv N (uu, o? 


Prova. De fato, seja h (X) = = (que é crescente). Então: 
il z—y)? 1 2 
fz (2) = fxe) doem = — e” /2 


h (X)  v2r0 v2r 


Proposição 20 ~ o°), então E (X) = Moda (X) = Med (X) = u e Var (X) = o°. 


Prova. Tomando Z = <-É de novo, temos E (X) = øE (Z) + u. Mas: 


1 = z2 1 —z2/2] E 
ej = zexp| -7 de = = (~e [..=0 


e, portanto, E (X) = u. Note também que a f.d.p. de Z é uma função par, portanto Med (Z) = 0 e Med (X) = 
o.0 + u = u. Enfim, note que 


rumo. À Sep) (s-a) _ a-a (= pj? 
f= ro 202 Seo [- 20? = V2703 per [- 202 ) 


é negativo para x < u e positivo para x > u, então seu máximo é alcançado em Moda (X) = u. Enfim 


Var(X) = oVar(Z =. fap- 5a 
- al nee(T) = se (rn ALA) 


= Se (0-0 + v27) = 
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Distribuições Normais com u = 0 e o = 1,2,3 


Infelizmente, a função de distribuição acumulada da distribuição normal não pode ser calculada usando apenas 
as funções matemáticas elementares. No entanto, ela é tão comum que várias calculadoras e pacotes computa- 
cionais são capazes de calculá-la numericamente?. Neste texto, usaremos a notação 


1 É 2 
F(z) = Pr(Z < z) = NormalDist (z -= | e” dg 
(2) =Pr(Z <2) =). 
para a f.d.a. de uma variável Z com distribuição normal padrão N (0,1), e Normallnv para a sua função inversa. 


No apêndice o leitor encontrará uma tabela para esta função acumulada. Aprenda a usá-la para resolver 
problemas. Alguns valores notáveis são: 


Pr(Z <0) = NormalDist (0) = 0.5 (por simetria) 
1 
Pr(-1<Z<1) = a e77 /2dz = NormalDist (1) — NormalDist (—1) = 0.682 689 49 
T J—1 
2 
Pr(—2< Z <2) = zl e77/2dz = NormalDist (2) — NormalDist (—2) = 0.954 499 74 
T J—2 
E 
Pr(—3< Z <3) = a e77 /2dz = NormalDist (3) — NormalDist (—3) = 0.997 300 2 
T J—3 
4 
Pr(—4<Z<4) = =| e * dz = NormalDist (4) — NormalDist (—4) = 0.999 936 66 
T J—4 


Isto significa que, em qualquer distribuição normal: 


Aproximadamente 68.27% da probabilidade está a menos de 1 desvio-padrão da média 


34.1% | 34.1% 


-36 -26 26 


Probabilidades notáveis na distribuição normal (Fonte: Wikipedia) 


20 Excel, por exemplo, usa DIST.NORMP para a f.d.a. F (z) da normal padrão e INV.NORMP para a função inversa F-1 (2). 
3E, pela simetria, metade destas probabilidades estarão nos intervalos [0, 1], [0,2], [0,3] e [0, 4] respectivamente. 
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Exemplo 21 Suponha que a altura de um homem adulto em centímetros é X ~ N (168, 6?). Qual a probabilidade 
de um homem adulto ter mais de 1.80m? 
Solução: tome 
X — 168 
6 


Z= 


Entuy 180 — 168 
X>180 Z> —— =? 
Assim 


Pr (X > 180) = Pr (X > 2) = 1 — NormalDist (2) = 2.2750% 


Exemplo 22 Alguns testes de Q.I. são criados de forma que a pontuação de uma pessoa escolhida ao acaso 
seja X ~ N (100,152). Supondo que este modelo seja válido, calcule Pr (X < 70), Pr (X > 115), Pr (X > 190), 
Pr (|X — 100| < 10) e encontre a tal que Pr (|X — 100| < a) = 0.95. 

Solução: tomando 


z= X — 100 
15 
sabemos que Z ~ N (0,1). Então consultamos uma tabela (ou usamos um pacote computacional) para encontrar 
Pr(X <70) = Pr(Z < —2) = NormalDist (—2) = 2.2750% 
Pr(X >115) = Pr(Z>1)=1- NormalDist (1) = 15.8655% 
Pr(X > 190) = Pr(Z > 6)= 1 -— NormalDist (6) = 9.865 x 10710 
2 2 2 
Pr (|X — 100| < 10) = Pr (1z < 5) = NormalDist 5) — NormalDist (-5) = 49.5015% 


Pr(|X-100|<a) = Pr (1z < =) = 95% => = = Normallnv (0.975) = 1.9600 = a = 29.4 


Exemplo 23 Seja X ~ N (300,52). Calcule Pr(X < 290) e Pr(|X — u| < 20). Compare esta última com 
Pr (|Y — uy|<20y) onde Y ~ N (1311, 309.85). 
Solução: seja Z = >u, Então 
Pr(X < 290) = Pr(Z < —2) = NormalDist (—2) = 2.2750% 
Pr (|Y — y| < 2oy) = Pr(|X — u| < 20) = Pr (|Z| < 2) = NormalDist (2) — NormalDist (—2) = 95.4500% 


5.4.1 Exercícios 


Ex. 16 Calcule T (1.5) eT (2.5). 


Ex. 17 Calcule T (3.4) em função de T (0.4) = 2.218. Confira sua resposta com o auxílio de uma calculadora ou 
computador. 


Ex. 18 No campeonato de futebol da sua empresa, os gols acontecem como num processo de Poisson com uma 
média de 2.89 gols por jogo (um jogo tem exatamente 90 minutos; não há acréscimos). No bolão da sua empresa, 
cada participante escolhe um possível minuto de jogo para o segundo gol daquele jogo. Em que minuto você 
apostaria? E se fosse para apostar no terceiro gol do jogo? 


Ex. 19 Seja Z ~ N(0,1). Um livro mostra três tabelas distintas de probabilidades para três funções F, A e R: 


F(z) = NormalDist(z) = Pr(Z < 2) 
R(z) = Pr(Z>2) 
A(z) = Pr(0<Z<z) 


Qual é a relação entre F e R? Entre R e A? E entre F e A? 


Ex. 20 Seja X ~ N (10,16) (isto é, o desvio-padrão é 4). Usando uma tabela ou computador, calcule: 
a) Pr(X < 10) b) Pr(X < 18) c) Pr(X > 13) d) Pr (13 < X < 18) 
e) Pr(6 < X < 14) f) Pr(X <0) g) Pr(9< X <11) h) Pr (X > —4) 
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Ex. 21 Seja Z ~ N(0,1). Use uma tabela ou um computador para encontrar os valores de a tais que: 
a) Pr(—a < Z < a)=0.9 b) Pr(—a < Z < a) = 0.95 c) Pr (—a < Z < a) = 0.99 
d) Pr (Z > a) = 0.75 e) Pr(Z <a) = 0.81 


Ex. 22 As alturas dos 1000 estudantes da FGV são normalmente distribuídas com média 1.72m e desvio-padrão 
5cm. Qual o valor esperado do número de estudantes com mais de 1.80m? Qual a probabilidade de algum deles 
ter mais de 2m de altura? [Usar tabela. 


Ex. 23 Um equipamento militar vem em duas versões: tipo A, com tempo de vida em horas dado por X4 ~ 
N (30,6?), e tipo B, com tempo de vida em horas Xg ~ N (34,32). Que equipamento seria preferível para uma 
missão de 34 horas? E para uma de 40 horas? 


Ex. 24 Suponha que os graus numéricos de uma turma grande de alunos de Probabilidade sejam aproximadamente 
normalmente distribuídos, com média 6 e desvio-padrão 2. Você quer dar notas de A a D aos alunos de forma que 
15% da turma receba A, 40% receba B, 25% receba C e 20% receba nota D. Quais devem ser os cortes numéricos 
que separam estas notas? [Usar tabela] 


Ex. 25 Encontre os quartis da distribuição N (u, o?) em função de u e o. [Usar tabela] 
Ex. 26 Mostre que os pontos de inflexão da densidade normal estão a um desvio-padrão da média. 


Ex. 27 Dizemos que X tem distribuição lognormal com parâmetros u e o? quando Y = In X tem distribuição 
normal de parâmetros u e o°. 
a) Encontre a função densidade da variável lognormal X. 


b) Se X tem distribuição lognormal com parâmetros u = 1.5 eo? = 1, calcule Pr(X > 2). 


5.5 Taxa de Falhas 


Definição 24 Seja T o tempo de vida de um equipamento, isto é, o instante da sua primeira falha, cuja f.d.a é 
F (t). A confiabilidade deste equipamento é 


R(0)=Pr(T>0)=1-F(t) 


Exemplo 25 Se a falha for um processo de Poisson de parâmetro À (em falhas por hora), então T ~ Exp (A), 
isto é 


E(T) = Var(T)=1/A 
Pr < = l=€% 
RO = EM 


Definição 26 A taxa média de falhas de um equipamento em um intervalo [t,t + At] é a chance de ele falhar 
nos próximos At dado que ele ainda não falhou, dividido por At, isto é 
EMRS Pr(T<t+At|T>t) F@+At)-F(t) __ RG+A)-R() 
= At “GF R(t) Ab 


Tome o limite quando At — O e temos então a taxa instantânea de falhas 


A (t) = limao TMF = EO = -8U 


IFO RE) 


—e 
e Mt At = At 


Mt) = Do =A 


-àt 1 mA 
TMF > 


isto é, no processo de Poisson, a taxa de falhas é constante e igual a À falhas por hora. Reciprocamente, se a taxa 
de falhas é constante, mostra-se que o tempo de falha segue uma distribuição exponencial. 


5.6. EXERCÍCIOS DE PROVAS 85 


Exemplo 28 Considere 2 componentes independentes em paralelo, onde Tı ~ Exp (A1) é o tempo de falha do 
primeiro componente e Ty ~ Exp (A2) é o tempo de falha do segundo. Seja T o tempo de falha do sistema. Calcule 
E(T) = MTBF, R(t) e A(t). 


Solução: 
R(t) = Pr(T >t)=Pr(T, >t ou T > t) = Pr (T > t) +Pr (T > t) — Pr (Ti > t).Pr (T > t) = 
= e Ait dE e Azt —e (Ai+à2)t 
F(t) = 1=R(t)=1-—e7™t — eT^t petit > f(t) = Aet ie — (A1 + Ag) eTAto 


ai 1 1 ili 
E(T) = tf(t)dt = 
(T) f Hd +55 


5.6 Exercícios de Provas 


Ex. 28 (A2 2004.2) Uma distribuição de probabilidade muito utilizada para modelar o tempo de vida de equipa- 
mentos é a distribuição de Rayleigh, cuja densidade é dada por f(x) = 2axe” 
parâmetro. 

a) Verifique que se X tem distribuição de Rayleigh, então Y = X? tem distribuição exponencial. 

Nos demais itens, suponha que um certo equipamento tem um tempo de vida, em meses, dado por uma distribuição 
de Rayleigh com parâmetro a = 0.01. 

b) Calcule a probabilidade de que o equipamento dure mais do que 20 meses. 

c) Verifique que a função de taxa de falhas do equipamento é dada por 


2 Z 
, para x > 0, onde a é um 


f(x) 
A(x) = ——=~— = 0,024 
(= Er 0) 50 
d) Em que dia é mais provável que o equipamento falhe: no primeiro dia do décimo mês, ou no primeiro dia do 
vigésimo mês? Justifique. 
e) Se você tiver a opção de usar, por um dia, um equipamento com 10 meses de uso ou um com 20 meses de uso 
(ambos funcionando), o que você prefere? Justifique. 


Ex. 29 (AS 2004.2) Seja T o tempo em que a primeira falha de um disco rígido de uma certa marca ocorre 
desde o momento em que ele é novo. Usualmente, o valor esperado de T é de 30 meses, mas você tem usado um 
disco rígido desta marca por 24 meses (desde quando ele era novo) sem problema algum. 

a) Suponha que a distribuição de T é exponencial. Qual é o valor esperado do tempo de ocorrência da próxima 
falha do seu disco? 

b) Repita o item anterior supondo que a distribuição de T é uniforme (iniciando em T = 0). 

c) Suponha agora que T tem uma distribuição (aproximadamente) normal de desvio-padrão 10 meses. Qual a 
probabilidade de seu disco rígido durar mais 16 meses sem falhar? 


z 


Ex. 30 (T3 2005.2) Suponha que seu processo de resoluções de questões é um processo de Poisson com uma 
taxa média de 1 questão resolvida a cada 30 minutos. Seja X o número de questões que você resolve em t horas, 
e T o tempo necessário em horas para você resolver uma prova de 2 questões. 


a) Calcule Pr (X > 2) e Pr(T <t). 
-2t 
b) Mostre que a f.d.p. de T é da forma f (t) = l e a 


Ê tante. 
0 parat < 0 onde c é uma constante 


c) Qual o valor esperado e a variância de T? 
d) Se a turma for composta de alunos assim, que percentagem espera-se terminar a prova em 90 minutos? 


Ex. 31 (A1 2005.2) Duas máquinas de encher pacotes de açúcar estão reguladas de maneiras ligeiramente difer- 


entes. A máquina “A” enche pacotes com massa Xa ~ N (9919, (49)"). A máquina “B” enche pacotes com 


massa Xp ~ N (9889, (1497). Todo pacote cujo peso seja menor que 995g é sempre rejeitado pelo controle de 
qualidade. 

a) Qual máquina produz a menor percentagem de pacotes rejeitados? Que percentagem é esta? 

b) Os pacotes que passam pelo controle de qualidade são vendidos com lucro de 80,40 cada, mas os rejeitados são 
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re-enchidos manualmente até o peso correto de 1Kg por um custo adicional de 80,15 por pacote. Qual o lucro 
esperado (por pacote) da máquina “B”? 

c) O fabricante decide regular a máquina “A” para que 6T% dos pacotes passem pelo controle de qualidade. Qual 
deve ser o valor da nova média (mantendo o desvio-padrão antigo)? 


Ex. 32 (Al 2005.2) Seja T uma variável aleatória com distribuição exponencial de parâmetro À, isto é, de 
densidade dada por 


Ae, para t > 0 
Pos f 0, caso contrário 


a) Seja X = e™òT. Encontre a distribuição de X e calcule E (X). 
b) Calcule E(T”) em função de À e n (onde n é um número natural). 
c) Um coeficiente de assimetria (skewness) bastante usado para distribuições em geral é 
E (T?) — 3E (T) E (T?) +2 (E (T)? 
(o (1) 


(Em geral, Sk > 0 indica que Moda < Mediana < Média e a distribuição tem “rabo mais comprido do lado 
direito do que do lado esquerdo”). Calcule o coeficente de assimetria da distribuição exponencial. 


Sk(T) = 


Chapter 6 


Variáveis Aleatórias Contínuas 
Bidimensionais 


6.1 Função de Densidade Conjunta 


Para uma variável contínua, tínhamos uma Função Densidade de Probabilidade f (x), cuja principal propriedade 
era 


Pr(X€1)= f Ha)do 


onde 1 é um subconjunto da reta real (tipicamente, I é uma união de intervalos). Como conseqüência deste fato, 
tínhamos 


O para todo «x € R 


fo tea - 1 


= 
a 
B 

V 


Além disso, definfamos 
E(X) = T. PO. 
Var(X) = E [x = E (X)? = E (X?) — [E (X)|? 
Agora para duas variáveis aleatórias contínuas X e Y (assumindo valores reais), temos: 


Definição 1 Uma Função de Densidade Conjunta f (x,y) das variáveis X e Y é uma função com a seguinte 
propriedade: 


Pr ((X, Y) € R) = f Jr f (£, y) dA 


onde R é um subconjunto qualquer do plano XY (isto é, uma região dentro do plano R?). Conseqüentemente, 
uma função de densidade conjunta tem de satisfazer as seguintes propriedades básicas: 


E (x,y) > 0 para todo (x,y) E R? | 


SZ [Z f (z,y)dA=1 


Assassinando violentamente o rigor matemático, diríamos que “f (x,y) dA é a probabilidade no ponto (x, y)”. 
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Definição 2 Dada uma função de densidade conjunta f(x,y), definimos o Valor Esperado, Variância e 
Desvio-Padrão da variável X como a seguir: 


E(X) = f fe 2f (x,y) dA 


Var (X) = E |(X - E (X)}?] = E (X?) - [E (x)? 


o (X)=vyVar(X) 
Aliás, em geral, o valor esperado de uma função g (X,Y) será: 
E (g9 (X,Y)) = f feo 9 (%,y) f(x,y) dA 


Exemplo 3 (A) Escolha um ponto (x,y) “aleatoriamente” dentro do quadrado Q = [0,2] x [0,2]. Uma possível 
densidade para este experimento é tomar 


sanf dLE 


0, caso contrário 


Note que f Jus f (Œ, yY)dA = 1. Esta densidade escolhe pontos de coordenadas “pequenas” (perto de 0) tão fre- 
quentemente como pontos de coordenadas “grandes” (perto de 2). Por exemplo, note que 


1 1 1 
Pr(X +Y >2)= o -dA = -Área (T) = = 
rå 4 2 
onde T é o triângulo de vértices (2,0), (0,2) e (2,2). 


Definição 4 Quando a função de densidade conjunta é constante dentro de um certo conjunto R (e O fora dele), 
dizemos que a variável (x,y) é distribuída uniformemente em R. Neste caso, temos 


(x,y) ER 


0, caso contrário 


1 
f(x,y) = Area(R) Es 


Exemplo 5 (B) Agora, escolha um ponto (x,y) dentro de Q com a densidade conjunta dada por 


sen- {2 Ens 


0, caso contrário 


Novamente, verifique que f f Q dA = 1. Esta densidade escolhe pontos de coordenadas “grandes” mais fre- 
qüentemente do que pontos de coordendas “pequenas”. Intuitivamente, uma pequena região próxima de (2,2) é 
escolhida 4 vezes mais freqüentemente do que uma região próxima de (1,1) que tenha a mesma área. Note que 


Dio 60) 2 
zy £Y T (2 2 5 
Pr(X +Y >2 =|| Za- f — d d= | $ (2-0-2 da = — 
l ) r 4 o das 4 i 0 5 ( >) 6 


onde T ainda é o triângulo de vértices (2,0) , (0,2) e (2,2). 


0.5 t 15 2 


B) f(x,y) = xy/4 (destacada a linha X +Y = 2) 
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6.2 Distribuições Marginais e Condicionais; Covariância e Correlação 


Dadas duas variáveis discretas X e Y e sua distribuição conjunta p(x,y) = Pr(X = z e Y = y), tínhamos o 
conceito de Covariância e Correlação: 


Co(XY) = EXE) - E (Y))] = E (XY) - E (X) E (Y) 
— Co(X,Y) 
A = cor) 


Também tínhamos distribuições marginais e condicionais 


px (x) = Prix=2)=5 p(z,y) 
pxpy (zly) = Pr(X=2Y=9)= p(x,y) 


py (y) 


Agora, dada uma Densidade Conjunta f (x,y) para V.A. Contínuas X e Y, temos as mesmíssimas definições 
de Covariância e Correlação (e as mesmas propriedades!), apenas trocando os somatórios de dentro dos valores 
esperados pelas integrais correspondentes. 


Definição 6 4 Distribuição Marginal de X será 


fx (x) = JZ, f(x,y) dy 


e a Distribuição Condicional de X dado Y será 


fx (ly) = ER 


Definição 7 A Covariância e a Correlação entre duas variáveis X e Y são respectivamente 


Cov (X,Y)=E((X- E(X) Y -E(Y))=E(XY)-E(X)E(Y) 


— Cov(X,Y) 
p(X,Y) = SON (Y) 


Definição 8 4 Esperança Condicional de X na certeza de que Y = y é 


Elx|r=y=/[Cozfxpy (vly) de 


(às vezes denotada simplesmente E [X|y]). 


Exemplo 9 (A) Voltando ao exemplo A acima, temos as distribuições marginais 
"i 1 
fx) = f -dy = = (para 0 < x < 2) 
o 4 2 


fy (y) 


i A E í 0<y<2) 
E x= z (para y 
ou seja, X e Y ambos têm distribuições uniformes em [0,2]. Também, dado y entre O e 2, tem-se 
1/4 1 
> (zlu) = >" =- 2 


isto é, mesmo que o valor de Y = y seja dado, a distribuição de X não se altera. Como 


2 p2 1 2d 2y 
(er) = | f zy. dy da = f de | dy = E(X)E(Y) 
o Jo 4 o 2 o 2 
temos Cov (X,Y) =0. Enfim, note que E(X|y) = E (X) =1 para 0 < y <2. 
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Exemplo 10 (B) Voltando ao exemplo B, temos as marginais 


2 
fx(x) = | Eay=5 (amo <a <2) 
o 4 2 


2 
fy(y) = f TY dir=” (para 0 < y < 2) 
o 4 2 
e, dado y entre O e 2, temos a condicional 


f(x,y) _ xy/4_ zx 
frly) y/2 2 


fxv (zly) = para0 <z <2 


Para calcular Cov (X,Y ) notamos que: 


Bay f f a E (f 2540) (f vta) - E(X)E (Y) 


e, portanto, novamente, Cov (X,Y) = 0. Enfim, note que E(Xl|y) = E (X) = É para0<y<a2. 
Exemplo 11 (C) Escolha um ponto agora uniformemente no círculo C de centro (0,0) e raio 1. Então 


ea) = t se (x,y) €C 


0, caso contrário 


f ZdA=0 

CT 

E Y4A=0 
GT 


E(XY) = Tf 4A =0 
CT 
e, assim, Cov (X,Y) = p (X,Y) = 0 de novo. No entanto 


Por simetria, vê-se que 


ea] 
a 
| 


Em 
o 
| 


SE 
1 2 
fea) = f —dy = -Vy 1 — x? para -1 <x <1 
ER T T 
l 2 
fy (y) = -dz = -y1 — y? para -1 <y<1 
= 1-y2 T T 
enquanto, dado —1 < y < 1: 
1/7 1 
o T E RE fá FP Ave VER 
21-4 2y1-y? 


ou seja, dado Y = y, a distribuição de X é uniforme, a saber, X ~ U [-v 1-9y2,4/1— | ! Portanto, E [|X |y] = 
O qualquer que seja y € [-1,1]. 


0.87 


0.27 


1 


1 


108 06 -04 020 02 04,06 08 1 


C) f (x,y) = 1/7 em C C) fx (x) = 4v1- x? ©) fx Cly) = 5 m em O 
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Definição 12 As variáveis X e Y são independentes quando a sua densidade conjunta é o produto das mar- 
ginais, isto é, 


f(x,y) = fx (x) fy (y) 
Nos exemplos A e B acima, X e Y são independentes, mas em C, X e Y não o são. De fato, é fácil ver que: 


Proposição 13 X e Y são independentes se, e somente se, f(x,y) é da forma g(x) h (y) num retângulo da 
forma [a,b] x [c,d] (e O caso contrário; note que este retângulo pode ser “infinito”). 


Prova. De fato, se f(x,y) = g (x) h (y) em [a,b] x [c,d], temos 


f [ohona = 1> (f owa) (row): 


Então 


d b 
fx (x) fy (y) =g (x) h (y) (/ vt) ( sajas) = g (z)h (y) = f (x,y) 


e as variáveis são independentes. Por outro lado, se X e Y são independentes, basta tomar g(x) = fx (x) e 
h(y) = fy (y) e acabou. m 


Proposição 14 Se X e Y são independentes, Cov (X,Y) = 0 e E[X]|y] = E (X) para valores válidos de y (isto 
é, sempre que fy (y) £ 0). 


Prova. De fato, neste caso 


E(XY) = ff ut (aaa = l f eut hr) dy dz = 
d 


b 
( f sea ar) ( f TAT a) = E(X)E (Y) 


E(X) = T zfxy (zly) dz = T o = E fx (x) de = E (X) 


— 00 — 00 


Definição 15 Os gráficos de E [X|y] (uma função de y) e E [Y|x] (uma função de x) são chamados de curvas 
de regressão (de X sobre y e vice-versa, respectivamente). 


Exemplo 16 Nos 3 exemplos acima, temos que E [X|y| e E [Y|x] são constantes (nos suportes das respectivas 
densidades): 
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2 2 
1.8 1.8 
1.6 1.6 
1.4 1.4 
1.2 1.2 

1 1 
0.8 0.8 À -0. -0.4 o, 0.2 0.4x0.6 0.8 
0.6 0.6 
0.4 0.4 
0.2 0.2 

E 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 E 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 

A: E[Y]z]=1. B: E[Yl|x] = 5. C: E[Y|x)=0. 


Exemplo 17 Suponha que a densidade conjunta de X eY é 


=} para (x,y) € [0,2] x [0,2] 
0, caso contrário 


oo) =( 


Note que X e Y não são independentes pois f não é o produto de duas funções em x e y. Mais especificamente, 
note que as marginais são: 


2 
+ pai 
fx (x) = J E 3 Y dy e gz paraz € [0,2] (e 0, caso contrário) 
0 
224 y y+1 
fru) = f 3 da = g Pray € [0,2] (e 0, caso contrário) 
0 
enquanto a condicional de X dado Y =y é 
fy) _ zty 4 T+y 
ue = = 
re a) 8 yti 2d+9) 


Note que o valor esperado de X dado Y = y é 


q +y 4+3y 
EI|X — T———— AL = — 
[xIx] / F 3049) 


que é uma função decrescente de y! Assim, não é surpresa que X e Y estejam negativamente correlacionadas: 


2 
+y 5 5 T 11 
E(X’) = 2 dz dy = = => Var (X) = Ż — = 
(x5) Li "US ax)=2- (i 36 
2 p2 
4 
E(XY) = ffo u des 
o Jo 8 3 
4 77 1 
X,Y) = E(XY)-E(X)E(Y)=----=->— 
Cov (X,Y) (XY)-E(X)EY)=3-35 7 3 
Cov (X,Y —1/36 1 
py) = CUT) Re 
o(X)o(Y) 11/36 1 
Enfim, note que E [X|Y] = SU é uma nova variável aleatória, cujo valor esperado é 


oo 2 2 
rExY=| eamroaw= | a [ Stay = 5 


ou seja, E (E [X|Y]) = E (X)! Coincidência? Não! É um teorema (veja exercícios). 
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0.5 $ "1 E 
fxi (zly) = str) frix (ule) = 54) 
5 
e 
05 t 157 3 0 i 2 
E [X]|y] e E [Y |x] no espaço... ...e no plano XY. 


6.2.1 Exercícios Ilustrados 


Ex. 1 A densidade conjunta de (X,Y) é 


kry, se0<r<1le0<y<1 
0, caso contrário 


ren=f 


a) Determine o valor da constante k. 

b) Determine as densidades marginais de X e Y. 

c) X eY são independentes? Calcule Cov( X,Y). 

d) Calcule Pr(X +Y < 1) e Pr (X +Y < 5). 

e) Determine a densidade condicional fy|x e a esperança condicional E [Y | X = z]. 


Ex. 2 A densidade conjunta de (X,Y) é dada por 


key, se0<y<zr<l1 
0, caso contrário 


Fe) 


Repita os itens a-e do exercício anterior. 


0.2 04 x 06 0.8 


1) f (x,y) = key 2) f (x,y) = kzy (0< y <x <1) 
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Ex. 3 Sejam X e Y variáveis aleatórias independentes distribuídas uniformemente em [0,1] Calcule E (XY). 
Ex. 4 4 densidade conjunta de X eY é 


_ J| 6x, selO<a<y<l 
Fey) = f 0, caso contrário 
Determine E|X | Y = y] (onde 0 < y < 1). 


Ex. 5 Y tem distribuição U(0;1) e, na certeza de Y = y, X tem distribuição U (0; y). Determine Pr(X > 0.4) 
e calcule Cov(X,Y). 


4) f (z,y)=6r (0<z<y<1) 5) f (æ,y) =?? (0<x£ < y< 1) 


Ex. 6 Se X ~ Exp(A) e a > 0, determine E[X | X > al. 


Ex. 7 Note que E[|X|y] é uma função de y, digamos, g (y). Então E[X|Y] = g (Y) é uma variável aleatória que 
depende de Y (e não de X). Podemos então falar do valor médio desta variável aleatória, a saber, E (E [X|Y]). 
Mostre que 

E(E[X|Y]) = E(X) 


6.3 Funções de Variáveis Contínuas 


Dadas variáveis aleatórias contínuas X e Y com densidade conjunta fx,y (x,y) e dadas W = g (X,Y) e Z = 
h(X,Y), como obter a distribuição conjunta de W e Z? O teorema a seguir resume o resultado: 


Teorema 18 Sejam X eY variáveis aleatórias com densidade fx, y (x,y). Sejam W =g (X,Y) eZ=h(X,Y) 
duas novas variáveis. Então a densidade conjunta de W e Z é dada por! 


[iwz (1,2) = fxoy (0,9) 11] 


onde J é o Jacobiano da transformação T : (x,y) > (g (x,y), h(x, y)), a saber: 


ðr dx 

J= O(x,y) = w z 
O(w,z) Oy Yy 

ðw oz 


ISe você não consegue lembrar se tem que usar as derivadas de x e y com relação a z e w ou vice-versa, este mnemônico vai te 
ajudar: no caso unidimensional, era 
f(x) da = g (y) dy 
No caso bidimensional, é 
f(x,y) ð (x,y) = g (w, z) 9 (w, z) 


Tecnicamente, isto não faz sentido algum, mas jogando um dos ô para o outro lado e lembrando de colocar um módulo para consertar 
tudo: 

ð (w, z) 
9 (x,y) 


9 (x,y) 
ð (w, z) 


f (æ, y) = g (w, 2) 


ou, equivalentemente, 


g (0,2) = fæ) 
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(Tecnicamente, precisamos das seguintes hipóteses adicionais: J nunca se anula na região suporte de fx,y (x,y); 
T é uma transformação diferenciável bijetiva, pelo menos entre o suporte de fx,y (x,y) e o interior do suporte 
de fw,z (w,2); fx,y (x,y) é contínua em seu suporte). 


Prova. O argumento a seguir não é uma demonstração formal, mas é convincente (e tem o espírito correto). 
Considere uma região R no plano XY cuja imagem T (R) está no plano WZ. Como T é bijetiva, os eventos 
(X,Y)eRe(W,Z) €T (R) são equivalentes, e portanto: 


Pr ((X,Y) € R) = Pr ((W, Z) € T (R) 


Sendo fw,z (w,z) a nova densidade conjunta, a equação acima se escreve 


J ftx @udiy= f f fw,z (w, z) dwdz 


Mas, do Cálculo, sabemos que, dentro das hipóteses acima, 


J fitx wsady [ f fxy coy) ZE] dude 


onde w = g (x,y), z = h (x,y) e 


dem] E E dem 
ð (w,2) O do dw dz ðz ðw 
Assim, é de se esperar que 
ð (x,y) 


fw,z (w, z) = fx,y (x,y) = 2) 
E 


Exemplo 19 (A) Voltando ao exemplo A, escolha um ponto (X,Y) uniformemente no quadrado Q = [0,2] x 
[0,2]. Qual é a distribuição conjunta de Z = X? e W = Y3? Calculemos o determinante Jacobiano de (W, Z) 
com relação a (X,Y) 


9(X,Y) 


Infelizmente, precisamos exatamente do Jacobiano inverso (de (X,Y) com relação a (W,Z))! Mas o coeficiente 
de correção será o inverso, isto é 


=-6XY? 


Ə(W,Z) |M | | o 3y? 
5| 2x o0 


I ll 


1 1 
= = — =. 2 
fzw (2,w) fxy (x,y) |J] 4 |-6xy?| IA Sa Tu para O <T,y < 


ou seja, a densidade conjunta de Z e W é (não se esqueça de calcular o novo suporte com z e w!): 


dz 12-28, para (z, w) € [0,4] x [0,8] 
0, caso contrário 


feu] 


nn i 
1 2 3 4 5 6 7T} 


f(x,y) =4 F (zu) = 2 "2ur2 


0.5 i 15 


tod 
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Se quisermos encontrar a distribuição de apenas uma variável nova Z = g (X,Y ), há duas alternativas: 


e Encontre a acumulada de Z fazendo a integral correspondente no plano XY. Afinal: 


Pr(Z<e)-Prig(XW)<e)= | | flæy)dA 
R 
onde R é a região definida por g (X,Y) < z. 


e Invente uma variável qualquer W (por exemplo, W = X ou W = Y) para acompanhar Z e encontre a nova 
densidade conjunta de Z e W. A partir daqui, integre com relação a W para encontrar a marginal de Z, 
que é a sua densidade. 


Exemplo 20 Suponha que a f.d.p. de X e Y é dada por 


“TYsex>0ey>0 
0, caso contrário 


e 
f(x,y) = l 
Qual é a distribuição de Z = X +Y ? Usando o primeiro método, basta calcular a acumulada de Z: 


Pr(Z <z)=Pr(X +Y <z) 


Z 


Para z < 0, esta probabilidade é claramente 0. Para z positivo, X +Y < z é (no plano XY) o triângulo T de 
vértices (0,0), (0,2) e (2,0). Então: 


Pr(X+Y <z) = f feras= [| | e "Y dyda = 
y o Jo 


= I e” a da = 1 e™7 (1 — e77?) dx = 
0 0 


T—2 


zZ 
= e — edr = (e "| o — ze 7 =1-e 7- ze”? 
0 g=0 


Daqui é fácil obter a densidade de Z. Para z > 0: 


f (2) = ES a a] = ze * 


Ou seja 


_ | ze*,paraz>0 
f(z) = l 0, caso contrário 


Exemplo 21 Refaremos o exemplo acima usando o segundo método. Seja, por exemplo, W = X. Então 


ðw ðw 
ð (w,2) _ pa Em =| Ja 
o (x,y) = D i 1 
Portanto, 
Jwz) = EED -ev e paraz >0ey>0 


Precisamos colocar a região suporte em termos de w e z! A reta x = Q se transforma em w = Q; a reta y =Q se 
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transforma em z = x +0 = w: 


T(z,u)5(z x+y) Z 


O primeiro quadrante XY transforma-se... ...na regiao delimitada por W =0 e Z =W. 


Assim, a nova densidade é 


Tae e7” se0<w<z 
oO, caso contrário 


A marginal de Z é então 
fz (2) = f e dw = ze” paraz > 0 
0 


e O caso contrário. 


6.3.1 Exercícios Ilustrados 


Ex. 8 X e Y são independentes com distribuição Exp(l). Se Z = X +Y e W = =: 

a) Determine a densidade conjunta de Z e W. 

b) Determine as densidades marginais de Z e W e identifique essas distribuições marginais. 
c) Verifique se Z e W são independentes. 


(2u)=(2+y, =) 
nos 


1 2 = 
f(x,y) ="? 


Ex. 9 4 densidade conjunta de (X,Y) é 


_ f| 4zy, se0<xz<1le0<y<1 
f(x,y) = f 0, caso contrário 


a) Encontre a densidade de Z = X +Y. 
b) Encontre a densidade de W = X — Y. 
c) Calcule a correlação entre Z e W. As variáveis W e Z são independentes? 


Ex. 10 Repita os itens do exercício anterior para a densidade 


_ | Suy,seO<y<a<l 
feas f 0, caso contrário 


97 


98 CHAPTER 6. VARIÁVEIS ALEATÓRIAS CONTÍNUAS BIDIMENSIONAIS 


Ex. 11 X e Y são independentes com distribuição Exp(A). Mostre que Z = X — Y tem distribuição de 
Laplace de parâmetros u=0 e b= >, isto é, sua densidade é dada por 
Rel 
2a 
Qual seria a densidade de Z se X ~ Exp(A) e Y ~ Exp (Ao)? 


2 


Laplace de parâmetros u = 0eb= 1. 


Ex. 12 Sejam X e Y variáveis independentes com densidades dadas por f(x) e g (y), respectivamente. Seja 
Z = X +Y. Mostre que a densidade de Z pode ser escrita da forma 


h= f Hos(e-nd 


desde que esta integral seja convergente. Esta nova função h é chamada de convolução de f com g e é repre- 
sentada por h = f x g. 


Ex. 13 Se X e Y são variáveis independentes com distribuição U [0,1] mostre que Z = X +Y tem densidade 
dada por 
z,se0<z<1l 
flg)=4 2-2, sel<z<2 
0, caso contrário 


Ex. 14 X, Y e Z são independentes e têm distribuição U [0,1]. Mostre que a densidade de W = X +Y +Z é 


2a se0<w<l1 
—u? + 3w- 3, sel<w<2 
dE 33w43, seZ2<Lw<3 
0, caso contrário 


f (w) = 


0 02 04 06 08 1 12 14 16 18 2 05 l 15 2 ; 
Soma de 2 var. indep. U [0,1]. Soma de 3 var. indep. U [0,1]. Soma de 4 var. indep. U [0,1]. 
2Por definição, a distribuição de Laplace de parâmetros u e b tem densidade dada por 


Fa) = 5 T 


Ela é uma variante da distribuição normal com E (X) = u e Var (X) = 2b2. Em termos de o = v2b, teríamos 


1 
z —vZle-ul/o 
f (2) a 
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Ex. 15 X eY são independentes com distribuição Exp (A) e Exp (A2), respectivamente. Mostre que, se À £ Ao, 
então Z = X +Y tem densidade dada por 


pig=l SEK (e ce), sez>0 
= 0, caso contrário 


O que acontece quando À, e À» se aproximam de um valor comum A? Qual é o nome desta distribuição? 


Ex. 16 Sejam X e Y independentes com distribuições N (0,1) cada. Mostre que, as variáveis W = aX +bY e 
Z =bX —aY são independentes e determine as suas distribuições marginais. 


Ex. 17 X eY são independentes e têm distribuição N(0,1). Determine a densidade de W = >. 


Ex. 18 A distribuição normal bidimensional centrada em (0,0) é a distribuição cuja densidade é dada 


por 
Few 1 ( 1 ( x£? y? 2pry ) ) 
Ty) = exp | 
i 2102041 — p? 2(1- ø) \o2 o? dy 


onde Ox, Oy são constantes positivas e—1 < p< 1. 
a) Mostre que, se p = 0, então X e Y são variáveis independentes com distribuições marginais N (0,02) e 
N (0, o2), respectivamente. 


b) No caso geral p £ 0, encontre a densidade conjunta de X e Z = — — pŽ e mostre que estas variáveis são 
Y Ox 


independentes. Em particular, conclua que a marginal de X ainda é N (0,02) (analogamente, mostra-se que a 
marginal de Y ainda é N (0, 0). 

c) Mostre que a correlação entre X e Y é exatamente p. [Dica: Cov (X, Z) = 0, então.../ 

d) Mostre que as curvas de nível f(x,y) = c são elipses (ou, no caso or = Oy, circunferências). 


Ex. 19 Suponha que a distribuição de X e Y é normal bidimensional com médias O, desvios-padrão 1 e correlação 
p, isto é 


o 1 z 1 T 2 
ea, TE sgo t = Sem) 


a) Mostre que E [Y | X = x] = pz. [Dica: sabemos que X e Z =Y — pX são independentes; use Y = Z + pX.. 
Em particular, se 0 < p < 1, note que, sempre que x > py = 0, tem-se E [Y | X = z] = pz < z. Este fenômeno 
é chamado retorno à média. Por exemplo, X pode ser a altura de um pai e Y a altura de seu filho. Apesar de 
haver uma correlação positiva entre X e Y, filhos de pais que são mais altos do que a média tendem a ser mais 
baizos que os pais (mas ainda mais altos do que a média). Outro exemplo: estudantes que tiraram notas altas 
na Al terão, em média, notas mais baixas na A2 (e vice-versa: os estudantes que tiraram notas baixas na Al 
tendem a tirar notas mais altas na A2). Isto não é sinal de cansaço, excesso de estudo ou sugestão de que não 
vale a pena estudar para a A1 — é simplesmente o retorno à média em ação. 


6.4 Exercícios de Provas 


Ex. 20 (A2 2004.2) A distribuição conjunta de duas variáveis aleatórias X e Y é uniforme (isto é, tem densi- 
dade constante e igual a k) na região da figura. 


2 


0.5 


0.5 1 1.5 2 
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a) Determine o valor de k 
b) Encontre a distribuição marginal de X. 
c) Calcule a covariância de X eY. 
d) Qual é a probabilidade condicional de que X seja maior que > dado que Y = 1? 


Ex. 21 (AS 2004.2) Dois componentes de um sistema eletrônico têm tempos de vida dados, respectivamente, 
por X eY (em meses). Suponha que a distribuição conjunta de X e Y é dada pela distribuição: 


3e 7-4 sex,y>0 
Hey) = f 0, caso contrário 


a) Calcule a densidade marginal de X. 

b) Calcule a densidade condicional de X dado que Y = y e determine Cov(X,Y). 

c) Qual a probabilidade do componente de tempo de vida X durar mais que o componente de tempo de vida Y ? 
d) Para que o sistema funcione, é necessário que pelo menos um dos dois componentes esteja funcionando. Qual 
a probabilidade do sistema funcionar pelo menos 1 mês? 


Ex. 22 (T5 2005.2) Considere o triângulo T de vértices (0,0), (0,—2) e (2,2) (veja figura). X e Y são duas 
variáveis aleatórias cuja densidade conjunta é dada por 


a, = à se (x,y) ET 


0, caso contrário 


a) Mostre que f é, de fato, uma densidade conjunta de probabilidade e encontre a densidade marginal de X. 

b) Calcule Pr(Y <0| X <1). 

c) Encontre E [Y |x] e desenhe a curva de regressão correspondente. 

d) Sabe-se que E(XY) = E (Y°) = $, E(X?) = 2 e E(Y) = 3. Calcule p(X,Y). As variáveis X e Y são 
independentes? 

e) Seja Z =Y — — +1. Encontre a densidade conjunta de X e Z e calcule Cov (X, Z). 


Ex. 23 (A2 2005.2) As variáveis aleatórias X e Y tem densidade conjunta dada por 


i 
fxy (z,y)= l E se (x,y) € R 


, caso contrário 


onde R é o trapézio de vértices (1,0), (2,0), (2,2) e (1,1). 
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a) Encontre e esboce o gráfico da densidade marginal de Y. 

b) Encontre a densidade conjunta de X e Z = =. Mostre que X e Z são independentes. Que distribuição 
marginal têm X e Z? Brevemente, determine E (X), E (Z), E (X?) e E (2°). 

c) Calcule E (Y) e Var (Y). [Dica: você pode usar Y = XZ.] 

d) Escolhem-se 100 pontos (X,Y) independentemente de acordo com esta distribuição. Seja W o número de 
pontos escolhidos que ficam dentro da região S definida por Y > 1. Estime Pr (W > 40) (Usar o Excel). 

e) Calcule Pr (X > 3| Y > 1). 

f) Encontre E [Y |x] e desenhe a curva de regressão correspondente. 


Ex. 24 (AS 2005.2) As variáveis X e Y tem densidade conjunta dada por 


Htc) E (x,y) € R 


0, caso contrário 


onde R é a região definida por x? < y < x? +1 e0<xz<1. 


a) Mostre que X e Z =Y — X? são independentes. 
b) Encontre a distribuição marginal de X e mostre que E(X") = ESI para n > 0. 
c) Calcule Cov (X,Y). [Sugestão: use Y = Z + X? e os itens anteriores. 
d) Encontre E [Y |X = z] e esboce a curva de regressão correspondente. [Dica: use Z de novo!/ 


Chapter 7 


Somas e Médias de Variáveis Aleatórias 


7.1 Motivação: Inferência Estatística 


Até aqui, temos nos preocupado com o seguinte problema: dada uma variável aleatória X com uma distribuição 
conhecida (digamos, N (30, 400)), encontre probabilidades (por exemplo, Pr (X > 60)) e propriedades (como valor 
esperado, desvio-padrão, etc.) relacionadas à variável X. 

Infelizmente, quando tentamos aplicar estes modelos à realidade, confrontamo-nos com o seguinte dilema: 
que modelo usar para cada situação? As “estórias” que vêm por trás de cada distribuição ajudam a escolher os 
modelos, mas, mesmo assim, ainda pode ser difícil descobrir os parâmetros a serem usados (os p's, N's, ws e 0's 
corretos). 


Exemplo 1 Suponha que queremos saber se um determinado referendo terá como resultado “sim” ou “não”. 
Temos então que criar um modelo para uma POPULAÇÃO COM N ELEITORES, cada um deles votando 
“sim” ou “não” (digamos por agora que estas são as únicas duas opções de cada eleitor). Um MODELO 
razoável para esta população seria imaginar que, tomando um eleitor aleatoriamente desta população, ele dirá 
“sim” com probabilidade p e “não” com probabilidade 1 — p. Assim, se X representa a resposta de um eleitor 
escolhido ao acaso (X = 1 significa “sim” e X = 0 significa “não”), X satisfaz o modelo de Bernoulli, e só falta 
descobrir o PARÂMETRO p... Como? Uma idéia é tomar uma AMOSTRA de n eleitores e perguntar a 
eles o que eles votariam — ou seja, supomos que realizamos n provas de Bernoulli. Desta amostra, tomamos a 
seguinte ESTATÍSTICA: o número S, de eleitores (na amostra) que disse “sim”. A partir desta estatística 
Sn, queremos fazer inferências sobre possíveis valores de p: será que p > 0.5 é uma hipótese razoável? Será que 
p% Sa (isto é, a proporção na população seria parecida com a proporção da amostra)? 

A idéia da Estatística é tentar estimar os modelos (incluindo parâmetros) de determinadas variáveis aleatórias. 
O exemplo acima inclui os termos e perguntas básicas da estatística, a saber: 

POPULAÇÃO: todos os elementos /resultados sob investigação; freqüentemente, confundimos a população 
em si com um MODELO de probabilidade a ela associado — afinal de contas, é o modelo que estamos tentando 
estimar! Este modelo terá PARÂMETROS a serem estimados /aceitados /rejeitados no processo de inferência 
estatística. 

AMOSTRA: qualquer subconjunto da população. 

ESTATÍSTICA: qualquer função das amostras (de preferência, uma função que seja útil de alguma forma 
para descobrir /aceitar /rejeitar os parâmetros do modelo da população!). 

Assim, as perguntas básicas a serem entendidas no processo de inferência estatística são: 

a) Qual a população a ser amostrada? 

Você tem que pensar com cuidado qual é a população que você QUER estudar; fregiientemente, é possível 
esboçar um modelo inicial razoável neste estágio, com alguns parâmetros a serem verificados ou estimados. 

b) Como obter os dados (a amostra)? 

No que se segue, suporemos que as amostragens serão do tipo AAS (Amostragem Aleatória Sim- 
ples), isto é, sorteiam-se elementos da população aleatoriamente (de maneira que todos sejam equiprováveis) 
independentemente uns dos outros (portanto, com reposição). Assim, no caso em que a população é representada 
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por uma variável X contínua, teríamos que a distribuição conjunta da amostra seria uma função de n variáveis 
(1): 
f(x, xo, un) = f(x1) f(xo)....f (Tr) 


onde f (x) éa f.d.p. de X. Note-se que fazer uma amostragem que realmente tenha estas características (eqüiprob- 
abilidade e independência) pode ser operacionalmente bastante complicado! 
c) Que informações pertinentes (estatísticas) serão retiradas da amostra? 
No exemplo acima decidimos contar apenas o número S, de “sim” dentro da amostra. Este S» foi a 
estatística utilizada. 
d) Como se comportam as estatísticas quando esta amostragem é utilizada em populações conhecidas? 
Por exemplo, se X ~ Bernoulli (p), qual é a real distribuição de Sn? Resposta: usando AAS, Sn ~ 
Bin (n,p). Precisamos estudar este problema de Probabilidade (a partir dos modelos, entender como se compor- 
tam as estatísticas) para poder entender melhor o problema de Estatística (a partir das estatísticas, inferir os 
modelos; isto é, a partir da estatística S,, inferir algo sobre o parâmetro p). Tais distribuições das estatísticas 
são chamadas Distribuições Amostrais. Neste capítulo, estudaremos as Distribuições Amostrais da Soma (e da 
Média) de variáveis aleatórias. 


7.2 Somas das Principais Distribuições Aleatórias 


Definição 2 Seja (X1, X2, ..., Xn) uma AAS tomada a partir de uma distribuição de uma v.a. X. Definimos a 
soma da amostra e a média amostral respectivamente por 


Sn = Xi +Xo +... + Xn 


X = Sn — Xi +Xo +... +Xy 
n 


n 


que, claramente, também são variáveis aleatórias. 


Nem sempre é fácil encontrar a distribuição de S, (e de X). Há alguns casos que já conhecemos (lembre-se: 
em cada caso, supõe-se que todos os X; têm a mesma distribuição de X e são independentes entre si, ou seja, 
estamos fazendo amostragens aleatórias simples): 


e Se X ~ Be(p), então Sn ~ Bin (n, p); 

e Se X ~ Bin (m, p), então Sn ~ Bin (mn, p); 

e Se X ~ Geom (p), então S, ~ NegBin (n, p); 

e Se X ~ NegBin (m, p), então S, ~ NegBin (mn, p); 
e Se X ~ Poi (A) então Sn ~ Poi (nA); 

e Se X ~ Exp (A) então Sn ~ Gamma (n, A); 

e Se X ~ Gamma (m, A) então Sn ~ Gamma (mn, A); 


Todas as afirmações acima são facilmente justificáveis diretamente a partir das definições (as “estórias” ) que 
estão por trás de cada distribuição (ou, se você preferir, por cálculos usando os métodos das seções 2.1.3 e 6.3). 
Já se X é uniforme a distribuição de Sn é surpreendentemente complicada: 


Exemplo 3 Suponha que X é uniforme em [0,1]. Então a distribuição de X dependerá do valor de n. Por 
exemplo, para n = 2, a f.d.p. de X é fácil de calcular (ex. 6.13): 


4x, se0<x< 4 
falz)=4 4(1-2),se;<x<1l 
0, caso contrário 
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e, para n = 3 e n = 4 temos um pouco mais de trabalho (ex. 6.14): 


2 
ZH se0<a<s BE, se0<a<4 
121,9 1 2 1\2 8 
kae aa ques Rs : Bula) = —128x (x — 5) +3 se3<2<3 
7 e LTx] fal- x), seġ<xr<1 
0, caso contrário 0, caso contrário 


2 


Como você pode ver, é complicado escrever uma fórmula geral que valha para todo n. E possível mostrar que 


k j n? an—l 
fa (2) a Eio (1) pig 02-i), para E <a < tt 


0, caso contrário 


Os gráficos de fo a fs estão abaixo: 


Para completar nossa biblioteca de “somas conhecidas”, aqui vai a proposição básica que leva ao caso normal 
(cuja prova é essencialmente o exercício 6.16): 


Proposição 4 Se X, ~ N (1,03) e Xo ~ N (12,02) são independentes, então qualquer combinação linear 
não-nula X = aXı + bX também terá distribuição normal, a saber, X ~ N (u, o?) onde u = ay + bho e 


o? = a20% + b2o2. Em suma: 


Xı N (1,04 
Xə ~ N (uo,03 > aXı +bXə ~ N (au + buz, a°0? + b2o3) 
Xı e Xə independentes 


Prova. Inicialmente, analisemos o caso em que Zı ~ N (0,1), Z2 ~ N (0,1) são normais-padrão indepen- 
dentes. As variáveis Z1 e Z teriam distribuição conjunta dada por 


1 —22 — 23 
ÍZuZa (21,22) = zn CP (== 


Considere as novas variáveis Z = aZı + bZ2 e W = bZ, — aZə. Note que 
Z? +W? = (a? + b°) (Z? + Z3) 


enquanto o determinante Jacobiano para perfazer a mudança de variáveis é 


= Ə (Z, W) a b 2 2 
í DZ b —a [=a +b 
ou seja 
— ERES (21,22) = I 22 + w? o 
op Coca DR e TE 


exp 
o 1 w? 
2nv'a2 + b2 ER a +b?) 27 o + b2 Sap 2 (a? + b?) 
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Daqui, vemos claramente que Z e W são independentes, e a distribuição marginal de Z deve ser 


fz (2) 


1 z’ 
2r vya? + b2 Se ( 2 (a? + 5) 


ou seja, Z ~ N (0,02 +b?). 
No caso geral em que X, ~ N (m,02) e X2 N (1,03), basta tomar u = ay + bt e escrever 


X4 — Xə — 
X =aXı +bXə2 6 X — u = (acı) >- hi H (bo2) - = 
1 2 


: > ; e ipa r X= 
ou seja, Z = X — u é uma combinação linear (de coeficientes ao, e bos) de Z1 = o e Za = (ambas 


Xo—uo 
02 
normais padrão!). Portanto, recaímos no caso anterior e concluímos que Z = X — u~ N (o, (acı)? + (bos), 

isto é, X ~ N (u,a2o? +02). m 
Em particular, tomando a = b = 1, vamos que se Xı ~ N (11,0) e Xon N (u2, 02) são independentes, 
então X1 + Xə ~ N (u + 2,07 +03). Por indução, é fácil então ver que: 


e |Se X; ~ N (u, o°) são independentes, então Sn ~ N (np, no?) eXsN (n, 2) 


Este fato é muito importante e merece ser repetido num formato “normal padrão”: 


Teorema 5 Se X1, X2, ..., Xn são amostras independentes da distribuição N (u, o°) então 


Sn— nu o 
Sazet o N (0,1) 
so 
ER ~ N (0,1) | 
7.3 Lei dos Grandes Números 
E se a distribuição de X; não for uma destas clássicas? Por exemplo, digamos que X1, X2, ..., Xn são uma 


amostragem aleatória simples de uma variável X com E (X) = ue o(X) =. O que podemos afirmar sobre Sn 
e X? Pelo menos a média e variância destas variáveis é fácil de achar: 


Proposição 6 


Prova. Basicamente, este é o exercício 2.33. Em suma 


E » Xi) = SE(X) = ny; Var 2 Xi) = Ñ Var (X;) = no? 


E(ž) = ($) -Hoy Var (X) = Var (Se) = o 


n n 


onde para as variâncias utilizamos que X1, X2, ..., Xn são independentes!. m o 
Em particular, observe o que acontece com X: à medida que n cresce, E (X ) permanece constante mas 
Var (X ) se aproxima de 0. Parece então que a distribuição de X fica cada vez mais concentrada em E (X) (veja 


ISe X1, X2, X3, ..., Xn fosse uma amostragem aleatória sem reposição a partir de uma população com N elementos, então 
Var(Sn) = 3 Var(X)+25 Cov(X;, Xj) = 
i ij 
= nø? +n(n-—1)Cov (X1, X2) 
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no exemplo 3 acima como a distribuição de X vai se concentrando em volta de E (X) = 0.5). Como formalizar 
esta intuição? Quem traduz “variância pequena” no fato “probabilidade concentrada” é a desigualdade de 
Chebyshev: se E(X) = u e o (X) = ø, então para qualquer k positivo 


Pr (|X — u| > ko) < E 


Agora é fácil provar a versão fraca da Lei dos Grandes Números (LGN) ou “Lei da Médias”: 
Teorema 7 (Lei dos Grandes Números, Bernoulli, 1713) Suponha que X tem uma distribuição tal que 
u = E(X) eo? = Var (X) são finitos. Seja X = Ettt-LX onde X1, Xo, X3, ..., Xn são provas indepen- 
dentes com a distribuição de X. Então, para qualquer £ > O fixo, temos: 


Pr(|X-u|>e)>0 


quando n — œ. Consegiientemente, quando n — 00 


[er (£ -al <) >1] 


Prova. Colocando X na desigualdade de Chebyshev e lembrando que FE (X) = E (X) = u e o (X) = o /yn: 


> ko 1 
o<Pr(|X dz) <p 


O k pode ser qualquer. Escolha k = eyn/o: 


o? 


0 < Pr (|X — ul >€) < a 


Pelo Teorema do Sanduíche (Confronto), temos que 


lim Pr (|X — u| >) =0 
n—00 
E 

Vale a pena destacar que este teorema vale independentemente da distribuição original de X (desde 
que esta tenha E (X) e Var (X) finitos). 

Em particular, suponha que X é uma prova de Bernoulli com probabilidade p de sucesso (quando X = 1). 
Assim, X será simplesmente a proporção de sucessos a longo prazo. A Lei acima indica que, para qualquer 
e > 0, esta proporção satisfará 

Pr (|ô — p| > €) = 0 


quando n — œ, ou seja 
Pr(p=p|<e)= 1 
Isto significa que finalmente temos alguma base para justificar a tal “interpretação freqüentista” 


das probabilidades citada no início do livro: a Lei dos Grandes Números diz que a proporção j de 
sucessos a longo prazo (muito muito provavelmente) ficará próxima da probabilidade p do evento”. 


e, portanto 


Var (X) -Z (5) 


Nr é chamado fator de correção para populações finitas. 


O fator NI 
? Existe uma versão mais forte da lei dos Grandes Números que basicamente diz que 


Pr( = p)=1 


quando n — œo, mas para tanto precisaríamos definir o significado de “a probabilidade de uma seqüência p tender para p“... 
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Para a estatística, esta lei é muito útil: por exemplo, se quisermos estimar a proporção de eleitores p que vai 
votar “sim” num referendo (como no exemplo inicial deste capítulo), podemos tomar uma amostra de n eleitores 
e calcular X = p (a proporção de eleitores da amostra que disse “sim”). A Lei dos Grandes Números garante 
que, à medida que n cresce, a probabilidade de p estar próximo de p se aproxima de 1! Nos exercícios e nas 
próximas seções veremos maneiras de estimar o mínimo n necessário de forma que possamos ter uma boa certeza 
de que p já está bem próximo de 9. 


7.3.1 Exercícios 

Ex. 1 Sejam Xı “U[-1,1] e Xə ~ U [0,1] independentes. Encontre a distribuição de S = Xı + Xə. 

Ex. 2 Sejam X, ~ Exp(A) e Xə ~ U [0,1] independentes. Encontre a distribuição de S = Xı + X2. 

Ex. 3 Qual é a relação entre a densidade f (x) da variável Sn e a densidade g (y) da variável X no caso contínuo? 


Ex. 4 Numa urna há 4 bolas, numeradas 1, 2, 3 e 3. Retire, com reposição, bolas X1, Xə, ..., Xn desta urna. 
a) Encontre a distribuição de S2 = Xı + Xə e de S5/2. 

b) Encontre a distribuição de S3 = S2 + X3 = Xı + Xə + X; e de 85/83. 

c) Encontre a distribuição de S4 e de 94/4. 

d) Faça os histogramas das distribuições de Sı = Xi, S2, S3 e S4. Que tipo de curva os histogramas parecem 
formar à medida que n cresce? 


Ex. 5 O suporte de uma função f (x) é o conjunto dos valores de x onde f(x) >0. Sejam X e Y duas variáveis 
aleatórias independentes tais que o suporte da densidade fx (x) é [a,b] e o suporte da densidade fy (y) é [c,d]. 
Encontre o suporte da densidade da variável aleatória Z = X +Y. A resposta pode mudar caso X e Y não sejam 
independentes? 


Ex. 6 Seja X ~ N (u,1) e considere uma AAS de tamanho 16 de X. Calcule Pr (|X — u| < 1) e compare-a com 
Pr (|X -u| < 1). 


Ex. 7 Se X ~ N (3,4) e Y ~ N (7,1) são independentes, qual é a distribuição de: 
a) 5X b) X+Y c) -X d) X-Y e) 2Y = 3X 


Ex. 8 Suponha que X1, Xə, ..., X10 ~ N (100, 10°). Calcule Pr (95 < X < 105) e compare-a com Pr (95 < X < 105). 
Quantas amostras (ao invés de 10) deveríamos tomar para que Pr (95 £X < 105) fosse 95% ou mais? 


Ex. 9 Figos têm massa normalmente distribuídas com média 60g e desvio-padrão 8g. Determine a probabilidade 
da massa de uma dúzia de figos ser superior a 150g. 


Ex. 10 As notas de um aluno em 3 testes são variáveis aleatórias P4 ~ N (7,1), Po ~ N (6,2) e Pa ~ N (5,2.76). 
Qual a distribuição da média -——— deste aluno? Se a nota mínima para passar é 6, qual a chance deste aluno 


passar? E se a nota mínima fosse T? Qual a chance de P3 ser pior que a média das outras duas? [Dica: faça 
X = P, + Po — 2P] 


Ex. 11 O peso de um passageiro de elevador é supostamente X ~ N (80,100). Suponha que a capacidade máxima 
de um elevador é de 800kg. 

a) Qual a probabilidade de 7 passageiros ultrapassarem a capacidade do elevador? E 8? E 9? 

b) Qual o número máximo de passageiros para que haja 99% de chance do elevador suportar a carga? 

c) Para quanto devemos aumentar a capacidade do elevador para que haja 99% de chance dele suportar 9 pas- 
sageiros? 


Ex. 12 Uma empacotadora de café alega que o peso do café em gramas de cada um dos pacotes é uma variável 
aleatória X ~ N (1000, 52). Se isto for verdade, qual a probabilidade da média dos pesos de 10 pacotes de café 
pesar menos que 995g? 


Ex. 13 Há duas populações X ~ N (11,0%) eY nN (1a, 03). Faça duas amostragens aleatórias simples de 


tamanhos m en ( respectivamente) destas duas populações e obtenha assim duas médias: X eY. Qual será a 
distribuição de D= X —-Y? 
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Ex. 14 Numa determinada função de uma empresa, o salário dos funcionários do sexo masculino é H ~ 
N (600, 102) enquanto o salário das funcionárias do sexo feminino é ligeiramente menor: M ~ N (590, 10°). 
Selecione uma amostra com 25 homens e 25 mulheres nesta função desta empresa, cujas médias salariais são 
respectivamente H e M. 

a) Calcule a probabilidade de um funcionário que recebe mais de 610 ser do sexo masculino. 

b) Calcule Pr (H -M> a) para os valores a = 0, 2 e 10. 

c) Refaça os itens anteriores se a média salarial das funcionárias fosse igual à dos homens (isto é, se M ~ 
N (600, 10?) ). 


Ex. 15 Lance uma moeda 100 vezes. Seja S100 o número de caras obtidas. Sabemos que a distribuição de S100 é 
Bin (100,0.5), com média 50 e variância 100 (0.5) (0.5) = 25. Assim, o desvio-padrão é 5. O que a Desigualdade 
de Chebyshev diz sobre a probabilidade de o número de caras estar a menos de 3 desvios-padrão da média, isto 
é, Pr (|Sioo — 50| < 15)? Compare esta desigualdade com o valor real desta probabilidade calculada via binomial 
acumulada. 


Ex. 16 Escolha Xı, X2,...Xn uniformemente em [0,1]. Mostre que 


- 1 1 
P X-—-|> < 
(| >e) = 12ne? 


X — 5| ser maior que 0.1 para n = 100, n = 1000 e n = 10000 


Em particular, calcule a probabilidade do “erro” 
de acordo com esta estimativa. 


Ex. 17 Escolha X1, X2,...Xn uniformemente em |u — h, u + h]. Use a desigualdade de Chebyshev para completar 
a expressão (em função de n, £ e h): 


Em particular, calcule a probabilidade do “erro” |X — p| ser maior que 0.1 para n = 100, n = 1000 e n = 10000 
de acordo com esta estimativa. 


Ex. 18 Suponha que X ~ U |u — 1, u + 1] mas você não conhece u. Estime o menor n tal que 
Pr (|X — u| > 0.1) < 5% 


Isto significa que, se você tomar n amostras desta distribuição uniforme, você tem 95% de confiança de que a 
média X da amostra que você tem em mãos aproxima o u desconhecido em uma casas decimais. Qual seria o n 
necessário para que haja 95% de confiança de que o erro é menr que 0.01? 


Ex. 19 Se E(X) =0 e Var(X) = 1, encontre k tal que você possa garantir que Pr (|X| < k) > 99%. Que valor 
de k você usaria se X fosse normal? 


Ex. 20 Seja Sn ~ Bin(n,p) e X = &. Mostre que 


n 


p-p- 1 
ne? T 4ne? 


Pri X =p >e) s 


Se você quiser ter 95% de certeza de que X está a menos de e = 0.1 do valor real de p, que n você usaria? 


Ex. 21 Sejam Xı e Xə variáveis independentes com distribuição de Cauchy: 


1 
SES aTr 


Mostre que X = — também tem uma distribuição de Cauchy (use um sistema algébrico computacional para 
ajudar com as contas). Conclua que a Lei dos Grandes Números não vale para a média de n variáveis aleatórias 
com distribuição de Cauchy. 
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7.4 Teorema Central do Limite (TCL) 


7.4.1 TCL para Distribuições Binomiais 


Seja X uma variável aleatória com distribuição binomial de parâmetros n e p (note que X = Sn é a soma de n 
variáveis aleatórias de Bernoulli). Sabemos que E(X) = np e o (X) = ynpq. Assim, consideremos a seguinte 
normalização de X: 

X — np 


y "Ppa 


Claramente, E (An) = 0 e o (An) = 1. A distribuição de An terá o mesmo formato do histograma da distribuição 
binomial (apenas re-graduando o eixo de X). 

Considerando as distribuições de A, para n cada vez maior, pode-se verificar que o formato destas distribuições 
parece cada vez mais se aproximar de uma distribuição normal (com os re-escalamentos e translações de eixos 
necessários). 


An = 


Exemplo 8 Os histogramas abaixo mostram as funções de probabilidade de X ~ Bin (n,0.3) para diversos valores 
de n. Note como à medida que n cresce o formato da função de probabilidade parece se aproximar do formato de 
uma distribuição normal. Fazendo uma translação e um reescalamento em X, encontramos as distribuições para 


An = Er No entanto, como o eixo X foi re-escalado de um fator ,/npq, este fator deve ser recolocado nas 
alturas do histograma se quisermos que as áreas ainda somem 1. Usando estes histogramas por áreas, note 


como eles se aproximam de uma distribuição normal padrão. 


037 031 
0.254 0.25] 
021 021 
0.15] 0.15] 
o1] 0.11 
0.05 a Sa 0.05 ] 
0 2 4 ké 8 10 020 2224 26 28 39 32 34 36 38 40 0100 120 140 k 160 180 200 
BinomialDen (k; 10, 0.3). BinomialDen (k; 100, 0.3). BinomialDen (k; 500, 0.1). 


4 2 0 2k 4 3 2 ad O l k 2 3 3 2 1 4 i k2 3 


: Z xs : Z xao Axa Z X=150 
v2.1 x dist. de A10 = VEE] v21x dist. de A100 UNE 105 x dist. de Asoo 500(0.27) 


Em suma, a idéia é que 


BinomialDen (x;n,p) = —=6 (=) para n grande 


3 
g=) 


q 


onde à (a) = Are! 2 é a densidade da normal-padrão. 


Formalizar esta idéia infelizmente nos leva a alguns detalhes técnicos (como assim “n grande” ?). A princípio, 
gostaríamos de dizer que 


: ; ; £x — np 
lim „/npq BinomialDen (x; n, p) = o ) 
tatoo (mnp) = 9 | apa 
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mas esta expressão não faz sentido pois, à medida que n cresce, o lado direito também muda e se aproxima de 0 


(o que não é útil)! Façamos ao contrário: fixemos a = V na distribuição normal do lado direito e procuremos 


o x da distribuição binomial que corresponda a este a. Como x deve ser inteiro, a opção mais próxima é: 


x = [np + aynpq 


onde o símbolo [a] significa “o inteiro mais próximo de a”. Agora o lado direito está fixo em ¢ (a), e podemos 
finalmente enunciar o teorema de forma precisa: 


Teorema 9 (Aproximação Normal Pontual à Distribuição Binomial) Seja X ~ Bin(n,p). Então 
lim ,/npq BinomialDen ([np + aynpq] ; n, p) = ¢ (a) 


onde 4 (a) = NormalDen (a) é a densidade normal padronizada, isto é, 


Prova. Vamos provar este teorema apenas no caso em que a = 0 e np é inteiro. Para tanto, precisamos da 
Fórmula de Stirling 


li n! 
im —————— = 1 
n=00 /Imnn"e- 


Neste caso 


npq BinomialDen (np;n,p) = Npq———— 
' (enp) = (ra) 


PP gra ms 
Ed 


2rnn” e~” 1 


np nq — = 0 
VD Sto)? e oi (ng) ea q —= = ¢ (0) 


Um método análogo pode ser utilizado nos outros casos, mas foge ao escopo deste livro. E 
A fórmula 


R 


1 = 
BinomialDen (x; n, p) = Ta" (z =) 


é frequentemente denominada de Aproximação Normal Pontual à Distribuição Binomial. 


Exemplo 10 Lancemos uma moeda 100 vezes. Qual a probabilidade de obter 55 caras? Ora, a probabilidade 


exata é 
100 


55 


mas a aproximação normal pode ser usada sem necessidade nem de uma tabela 


BinomialDen (55; 100, 0.5) = ( ) (0.5)100 = 4.847% 


NormalDen (250) 41) 11 a 
5 5 5 V2r 


O leitor atento notará que, dado X = z fixo, há vários valores de A, = a que satisfazem o enunciado do TCL, 
pois 


BinomialDen (55; 100, 0.5) = -05 — 4.839415% 


1 1 
S 
y npa vnpq 


parece então um tanto arbitrária — porque não utilizar algum outro dos 


1 il 
[np + ay/npq]| = z s-z Snp ; ayn ST +s 
z—np 
y npq4 
valores de a no intervalo onde o teorema é válido? 


A escolha que fizemos de usar a = 


Exemplo 11 No exemplo anterior, poderíamos calcular NormalDen (a) para outros valores de a no intervalo 
definido por a, =] = [0.9,1.1] e todos eles dariam aproximações razoáveis. De fato 


NormalDen (0.9) = q (0.9) o: e—0-45 — 5 087% 
5 5 927 

NormalDen (1.1) z (1.1) dd e—0-55 — 4 603% 
5 5 927 
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também não estão muito longe dos corretos 4.847%. Aliás, qualquer número entre 0.9 e 1.1 podia entrar ali... 


Que tal fazer uma média? 
1 11 $ (t) LL 
— | V= t) dt = 
1.1-0.9 f 5 a PO 
=  NormalDist (1.1) — NormalDist (0.9) = 4.8394064% 


go) 
= 

> 
| 
o! 

D 
? 


também dá um resultado muito bom que pode ser obtido de uma tabela da acumulada da normal. 


Em outras palavras, o TCL acima diz que, se X ~ Bin (n, p), então para x inteiro temos: 


o (t) 
vnpq 


Pr (X — x) = BinomialDen (x; n, p) S 


para todo t € [171,42] onde 
xz— 4- np x+ -np 
t=— | e É 


Portanto, Pr (X = x) também estará bem próximo do valor médio de ¢ (t) /./npq neste intervalo: 
1 = ot 
T2 — Tı Jr vVNPq 


Esta nova formulação é muito útil pois pode ser usada para intervalos da distribuição binomial, como no teorema 
a seguir! 


Pr(X =g) = dt = à (t) dt = NormalDist (x2) — NormalDist (x1) 


Teorema 12 (Aproximação Normal à Binomial) Seja X ~ Bin (n, p), e sejam a eb números inteiros fixos. 
Defina 


1 1 
a—np— 5 b—-np+5 

a* = 2 eb*= La 
vnpq vnpq 


Então 
limasoPr(a<X<b)= fo q (t) dt 


ou seja, a distribuição de X pode ser bem aproximada por áreas sob N (np, npqg) para n grande. 


Prova. (Esboço) O argumento dos últimos parágrafos mostra que 


Pr(X = 2) = de= | olad 


1 pr ó (2) 
T2 — Ti Jr vNPq 
pois %2 — xı = F Tomando agora o somatório para x variando de a até b, obtemos o resultado desejado! m 


Assim, podemos aproximar probabilidades binomiais do tipo Pr (a < X < b) utilizando tabelas da distribuição 
normal padrão sempre que n for “razoavelmente grande” (na prática, usa-se n > 30): 


X ~ Bin (n, p) => Pr (a < X < b) ~ NormalDist (==) — NormalDist (=) 


y npq4 y nPpq4 


Exemplo 13 Jogue uma moeda 100 vezes. Qual a probabilidade de obter de 40 a 60 caras? A resposta exata é 
terrível de calcular 


60 100 1 100 
BinomialDist (60; 100, 0.5) — BinomialDist (39; 100, 0.5) = X` ( i ) (5) = 96.480% 
k=40 


mas podemos usar uma aproximação normal, tomando a* = e = —2.1 e b* = n = 2.1. Assim, usando 
uma tabela, temos 


Pr (40 < X < 60) = NormalDist (2.1) — NormalDist (—2.1) = 96.427% 


Analogamente, qual a probabilidade de obtermos entre 35 e 65 caras? A resposta exata é 99.821% enquanto a 
aproximação normal nos daria 


Pr (35 < X < 65) = NormalDist (3.1) — NormalDist (—3.1) = 99.806% 
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Exemplo 14 Na faculdade GHX, um determinado curso tem 50 vagas. Estima-se que há 40% de chance de um 
aluno que passa no vestibular se matricular de fato na GHX. Se a faculdade GHX chamar 100 alunos, qual a 
probabilidade de não haver vagas para estes alunos todos? Se cada aluno for uma prova de Bernoulli, o número 
de alunos que se matriculam é X ~ Bin (100,0.4). A probabilidade de haver problemas é 


Pr(X > 51) = 1 — BinomialDist (50; 100, 0.4) 


que pode ser calculada com o auxílio de um computador como sendo 1.676%. Se não tivermos um computador, 
usamos a seguinte aproximação normal 


50.5 — 40 
100 (0.4) (0.6) 


Pr (X > 51) S 1 — NormalDist = 1 — NormalDist (2.1433) = 1.604% 


ou seja, a faculdade tem uma política de “overbooking” relativamente segura. 


7.4.2 TCL (Caso Geral) 


De fato, o Teorema Central do Limite vale para qualquer densidade de probabilidade que tenha média e variância 
finitas (sejam elas discretas? ou contínuas!), não só para Bernoulli/Binomial: 


Teorema 15 (Teorema Central do Limite) Sejam X1, X2, ... Xn amostras independentes de uma densidade 
com valor esperado u e variância o2. Seja 


Então 


limpos Pr (a < X* < b) = Stol) dz 


isto é, a distribuição de X* se aproxima (em áreas) da distribuição normal padrão. 


Provar que E(X*) = 0 e Var (X*) = 1 é um exercício simples — difícil é mostrar que a distribuição de X* se 
aproxima de alguma forma de uma distribuição normal (mesmo que sua distribuição seja discreta para n fixo)! 
Não provaremos este fato aqui — o leitor interessado pode consultar “Introduction to Probability Theory and its 
Applications”, por W. Feller?. 

Em particular, este teorema indica que NegBin (n, p) (soma de n variáveis tipo Geom (p)), Poi (nA) (soma de 
n variáveis tipo Poi (A)), Gamma (n, À) (soma de n variáveis Exp (À)), também se aproximam de uma distribuição 
normal à medida que n cresce! Assim: 


Se n é grande e X ~ NegBin (n, p), então X ~ N (z, 24) 


Se À é grande e X ~ Poi (A), então X = N (A,A) 


Se n é grande e X ~ Gamma (n, A), então X = N (ž, 32) 


Lembre que, se X1, X5,..., Xn forem normais desde o princípio, então X* é normal padrão e o limite não 
é necessário (ou seja, n não precisa ser “grande”). Uma ilustração do Teorema Central do Limite é o exemplo 
3, onde a média de várias distribuições uniformes se aproxima de uma normal (apesar da distribuição original 
uniforme não se parecer nem um pouco com uma normal!). 


3Para ser exato, no caso discreto é necessário assumir também que os possíveis valores da variável X sejam comensuráveis. 

*De fato, este texto prova uma versão ainda mais geral do TCL: mesmo que as distribuições de X1, X2, ..., Xn sejam 
diferentes, a distribuição da soma Sn e da média X se aproximarão de distribuições normais (desde que algumas hipóteses adicionais 
sejam feitas sobre as distribuições dos X;). 
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7.5 Aplicação à Estatística: Distribuição Amostral de uma Proporção 


Como no exemplo do início deste capítulo, seja p a proporção de eleitores que vai votar “sim” num referendo (ou 
que vai votar num certo candidato, ou que torce para um certo time). Ao entrevistarmos um eleitor ao acaso, 
é razoável supor que sua resposta X é uma variável aleatória com distribuição de Bernoulli de parâmetro p. 
Sabemos que E (X) =p e Var(X) =p(1— p). 

Seja Sn = Xı + X2 +... + Xn o número de “sim” encontrados ao entrevistarmos n eleitores escolhidos 
aleatoriamente e independentemente”. Sabemos que S, ~ Bin (n, p). A proporção de sucessos nesta amostra é 


p= Sn =X 
n 
Mas, pela seção anterior, sabemos que a distribuição de S, pode ser bem aproximada pela normal N (np, npq) 
para n grande, isto é 


Em particular, note que 


Pr (p-r <p p+r”) = F(h)-Fl-h=2F(W)-IS 
=> Pr (lo-9< 8/22) =2r(9-1 


onde F (k) = NormalDist (k) é a f.d.a. da normal-padrão. Como pq = p(1 — p) assume o valor máximo de 3 
quando p = > podemos afirmar que 


k 
— p| < — > — p| < — = e) — 
Pr (1 p| < — > Pi (1 p| <k r) 2F (k)—1 


k 
Escreva me obtenha 


Pr (Ip — ĝ| < €) > 2F (2evn) — 1 


Assim, mesmo sem saber p, podemos escolher n de forma a garantir que esteja a menos de € 
unidades de p com uma certeza de pelo menos 2F (2eyn) — 1! 


Exemplo 16 Numa pesquisa de opinião pública sobre torcidas, o IBGE entrevistou 2000 pessoas maiores de 16 
anos e descobriu que 15% destas declaravam ser torcedores do Flamengo. Qual a confiança de que a proporção 
real de torcedores do Flamengo esteja entre 14% e 16% (ou seja, do erro ao se tomar p por p ser de 1% ou 
menos)? Entre 10% e 20% (erro de 5%)? Que margem de erro € você deveria usar para ter 95% de confiança de 
que |p — d| < £? 


Solução: 
Pr (| — p| < 0.01) > 2NormalDist (0.022000) — 1 = 62.89% 
Pr (|P — p| < 0.05) > 2NormalDist (0.12000) — 1 = 99.999226% 
2 NormalDist (2ev/n) — 1 0.95 > 2:/n = Normallnv (0.975) = 1.96 > € 19 219% 


2vn 


Em outras palavras, temos 63% de confiança de que o ô encontrado ficará a menos de 1% do p real; temos 
99.9992% de confiança de que o erro é menor do que 5%; e temos 95% de confiança de que a margem de erro é 
menor que 2.2 pontos percentuais. 


5 Note que “independentemente” significa “com reposição”, ou seja, seria teoricamente possível escolher o mesmo eleitor duas vezes 
para indicar a sua resposta. Na prática, sendo N o número total de eleitores na população, é costume tomar n << N, e praticamente 
não há diferença entre “com reposição” e “sem reposição”. Isto dito, não é tão difícil fazer os cálculos num modelo sem reposição — 
basta notar que Sn ~ Hip (n, pN, N). 

6http://www.ibope.com.br/opp/pesquisa/opiniaopublica/download /imprensa torcidas 1 mencao.pdf 
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Note-se que estes “95% de confiança” têm de ser interpretados corretamente: não é que a variável aleatória p 
tem 95% de chance de estar entre p— c e 9 +e — afinal, p não é uma variável aleatória, p é um parâmetro real 
e fixo da população, mas que infelizmente desconhecemos! A variável aleatória é p = X! Estes 95% têm de ser 
interpretados assim: “se fizermos esta rodada de entrevistas várias vezes, encontraremos a cada vez 
um à diferente; existe 95% de chance deste j estar a menos de £ do p verdadeiro”. 

Um fato espantoso é que os cálculos do exemplo acima absolutamente não dependem do número de torcedores 
no Brasil! Diga-se de passagem, a imensa maioria das pesquisas estatísticas trabalha com 95% de confiança; 
quando uma pesquisa de opinião diz algo como “a margem de erro é de b pontos percentuais”, ela realmente quer 
dizer “temos pelo menos 95% de confiança de que a nossa estimativa da proporção e o valor real da proporção 
estão a menos de b pontos percentuais um do outro”. Afinal, é sempre possível que o instituto de pesquisa tenha 
escolhido exatamente os únicos 2000 torcedores do “Fim-de-Mundo Futebol Clube” em sua pesquisa aleatória, 
obtendo um p patológico por puro azar. 

De qualquer forma, se usarmos os usuais 95% de confiança, temos: 


2 NormalDist (2:/n) — 1 = 0.95 > 2eyn = 1.9600 > | eyn = 0.98 
independentemente do tamanho da população! 


Exemplo 17 Gostaríamos de entrevistar n eleitores sobre sua opinião a respeito de um referendo do tipo “sim” 
ou “não”. Quantos eleitores devemos entrevistar para que a margem de erro entre a proporção p de “sim” na 
população e a proporção p da amostra seja 3% (ou menos)? 

Solução: Note que é impossível garantir que |p — ô| < 3% a menos que entrevistemos praticamente a população 
toda! Salvo algo seja dito explicitamente em contrário, a “margem de erro” usada em pesquisas costuma se referir 
a 95% de confiança. Assim £ = 0.03 e: 


0.98)? 0.98)? 
n ( E ) GE) 067 entrevistados 


Novamente, note que o número de entrevistados independe da população deste país! 


Exemplo 18 Se cada vestibulando classificado tem 40% de chance de ir para a GHX, qual a chance de mais do 
que 50% dos 100 classificados irem para a GHX? Aproximadamente, temos 


(0.4) (0.6) 


pe N(04 = N (0.4, 0.0024 
P (o "00 ) (0.4, 0.0024) 


Assim, estimamos 


0.5 — 0.4 


Pr (p > 0.5) S 1 — NormalDist | —— 
(é ( y 0.0024 


) = 1 — NormalDist (2.04124) = 2.0613% 


Note que, se usássemos 51% ou mais: 


0.51 — 0.4 
vy 0.0024 


A resposta exata (1.676%) está bem perto destas duas. 


Pr (p > 0.51) = 1 — NormalDist ( ) = 1 — NormalDist (2.24536) = 1.2372% 


Exemplo 19 Suponha que 10% dos itens de uma linha de produção são defeituosos. Tomando 20 itens ao acaso, 
qual a chance de que 15% ou mais destes sejam defeituosos? O cálculo exato pede o uso da função acumulada da 
distribuição binomial X ~ Bin (20,0.1): 


Pr (ô > 0.15) = Pr (X > 3) = 1 — BinomialDist (2; 20, 0.1) = 32.307% 
mas arriscando uma aproximação normal p ~ N (0.1, — = N (0.1, 0.0045): 


0.15 — 0.1 
v 0.0045 


Note que a aproximação não é das melhores, pois n = 20 não é grande o suficiente. 


Pr (p > 0.15) = 1 — NormalDist ( ) = 1 — NormalDist (0.74536) = 22.803% 
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Exemplo 20 Se p = 30% dos estudantes de uma escola são mulheres, retirando uma AAS com 10 estudantes, 
qual a chance de obter p a menos de 0.01 de p? A aproximação normal nos dá 


pe N Q 21) = N (0.3,0.021) > Pr (|f — p| < 0.01) = 


0.01 0.01 0.01 
= Pr{]|Z| < ——— | = NormalDist | ——— ) — NormalDist | -——— |) = 5.5016% 
(| | 8) (5) ( E) j 


Vale comparar isto com a resposta exata; afinal, |p — p| < 1% se e somente se 3 estudantes da amostra exatamente 
são mulheres (se 2 ou 4 forem mulheres, |p — p| = 10%)! Assim, tomando X ~ Bin (10, 0.3): 


10 


Pr (|ô — p| < 0.01) = Pr (X = 3) = r 


) (0.3)? (0.7)” = 26.683% 
que é muito longe da aproximação normal pois o n é muito pequeno! 


7.5.1 Exercícios 


Vários destes exercícios já apareceram em seções anteriores - a idéia é usar agora aproximações normais 
e compará-las com as respostas antigas! 


Ex. 22 No exercício 15 definimos S100 como o número de caras em 100 lançamentos de uma moeda. O Teorema 
de Chebyshev mostrava apenas que 


1 


Estime esta mesma probabilidade usando agora uma aproximação normal à distribuição binomial Bin (100,0.5) 
e compare-a com a probabilidade exata obtida da distribuição binomial acumulada. 


Ex. 23 No exercício 16 definimos X como a média de 100 variáveis aleatórias, cada uma distribuída uniforme- 
mente em [0,1]. Naquele exercício usamos a desigualdade de Chebyshev para mostrar que 


Pr (|X — 0.5| > 0.1) < 8.333...% 


Estime esta probabilidade usando agora uma aproximação normal para a distribuição de X. Compare-a com o 
valor exato” da probabilidade, a saber: 


Pr (|X — 0.5| > 0.1) = Pr (Sn < 40 ou Sn > 60) = 5.0131246 x 1074 


Ex. 24 a) No exercício 18 vimos que, quando X ~ Ulu-1l,u+1], n = 667 amostras são necessárias para 
garantir que X está a menos de 0.1 unidades de u (com 95% de confiança). Supondo que a distribuição de X 
seja praticamente normal, mostre que cerca de 129 amostras seriam suficientes. 

b) Supondo que X é praticamente normal, mostre que o número de amostras encontrado naquele exercício para que 
|X — p| < 0.01 com 95% de confiança (que era n = 66667) pode ser reduzido para aproximadamente n = 12805. 


Ex. 25 Um instituto realiza uma pesquisa eleitoral com 1500 eleitores que vão votar em um de apenas dois 
candidatos (suponha que todos os entrevistados escolhem um dos candidatos). 
a) Qual a margem de erro da pesquisa em pontos percentuais? 
b) Suponha agora que nesta amostra de eleitores, 49% declararam que vão votar no candidato A e 51% declararam 
que vão votar no candidato B. Com a margem de erro do item (a), diríamos que os candidatos estão em “empate 
técnico”. Por este motivo, o instituto decidiu fazer uma segunda pesquisa com uma margem de erro de apenas 
0.5 ponto percentual. Quantos eleitores o instituto deverá entrevistar? 

"Bom, o valor exato mesmo é 
(660000) (227) P 


Pr(04<X<O0.6)=1 
100! 


onde P é um número primo de 150 algarismos, a saber 


P = 622609997 659 051 599 722 950 244 464 645 718 071 677 183 516 621 629 450 601 297 296 841 554 960 
217 389 903 579 462 227 539 317 464 835 342 588 500 249 887 137 669 481 946 430 446 686 029 506871 


Com sete casas decimais, dá 5.0131246 x 1074. 
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Ex. 26 Um instituto faz pesquisas sobre um referendo do tipo sim/não em 26 estados brasileiros mais o Distrito 
Federal. Em cada estado, ele divulga um intervalo de confiança para a porcentagem de eleitores “sim” (com 95% 
de confiança). Qual a probabilidade da proporção real não se encaixar no intervalo divulgado em 3 ou mais deste 
locais? E em 5 ou mais? 


Ex. 27 Refaça o seguinte problema (comparando com a resposta exata obtida anteriormente): 
Role um dado 30 vezes. Usa a aproximação normal à binomial para estimar a probabilidade de obtermos exata- 
mente cinco números 6. 


Ex. 28 Refaça o seguinte problema (comparando com a resposta exata obtida anteriormente): 

Um estudante marca ao acaso as respostas de um teste tipo V ou F com 50 questões. Usando a aproximação 
normal à binomial: 

a) Qual a probabilidade de ele acertar 80% (ou mais?) delas apenas adivinhando? E 60% ou mais? 

b) Se 100 estudantes adivinham as questões ao acaso, qual a probabilidade de ao menos um tirar 80% ou mais? 
c) E se o teste for múltipla escolha com 5 alternativas por questão, como mudam os itens anteriores? 


Ex. 29 Refaça o seguinte problema (comparando com a resposta exata obtida anteriormente): 

Um potencial paranormal tenta adivinhar 10 cartas escolhidas aleatoriamente, cada uma com 5 possibilidades 
eqüiprováveis. Se ele não tiver poder algum, qual a chance de adivinhar 8 cartas ou mais? E se 1000 pessoas 
comuns forem testadas, qual a chance de ao menos uma adivinhar 8 ou mais cartas por puro acaso? 


Ex. 30 Refaça o seguinte problema (comparando com a resposta exata obtida anteriormente): 
Distribua 10000 folhetos aleatoriamente por 2000 quadras em uma cidade. Qual a chance de a sua quadra não 
receber folheto algum? E de receber 5 folhetos? E 10? 


7.6 Exercícios de Provas 


Ex. 31 (A2 2004.2) Sua empacotadora produz automaticamente pacotes de um certo produto. O peso do pacote 
é regulável. No entanto, o peso do pacote sofre flutuações, de modo que ao se regular a máquina para um certo 
peso p, são produzidos pacotes cujo peso tem distribuição normal com média p e desvio padrão 10 gramas. 

a) Se a máquina for regulada para p = 500g, qual é a probabilidade de que o peso do pacote fique abaixo de 490g? 
b) Um fiscal amostrará um certo número n de pacotes e, caso a média dos pesos destes pacotes fique abaixo de 
495g, ele multará a sua fábrica. Qual o mínimo valor de n para que você tenha pelo menos 99% de chance de não 
receber a multa? 

c) Qual o valor de p para que a probabilidade de que o peso de um pacote fique abaixo de 490g seja igual a 1%? 


Ex. 32 (A2 2004.2) Um jogador participa de um programa de prêmios em que ele gira 24 vezes uma roleta 
graduada (continuamente) de O a 100 reais. O prêmio final é a soma dos prêmios de cada giro da roleta. 

a) Calcule a média e a variância do prêmio final ganho pelo candidato. 

b) Calcule a probabilidade aproximada de que o prêmio ganho seja maior do que 1400 reais. 


Ex. 33 (AS 2004.2) Uma roleta sorteia um número uniformemente entre O e 10. Você vai girá-la n vezes e 
somar os resultados de cada rodada. Você ganha um prêmio de $100 se a soma ficar entre 240 e 270. 

a) Calcule a média e a variância da soma dos resultados em função de n. 

b) O que é melhor: rodar a roleta 48 ou 54 vezes? Justifique a sua resposta. 

c) E se cada rodada da roleta custar 80.50, qual opção é melhor? Explique. 


Ex. 34 (AS 2005.2) Refaça o seguinte problema (comparando com a resposta exata obtida anteriormente): 

A cada dia de um período de 90 dias, uma determinada ação pode desvalorizar $4 com probabilidade 30%, ou 
subir $2 com probabilidade T0% (suponha que cada dia é independente dos demais). Seja Z o número de dias em 
que a ação subiu. 

a) Qual é a distribuição de probabilidade de Z? 

b) Você compra a ação no início do período e a vende ao final dos 90 dias. Qual o valor esperado do seu lucro? 
c) Estime a probabilidade do seu lucro ser de pelo menos 850 no período de 90 dias (juntando as valorizações e 
desvalorizações de cada dia). 


Chapter 8 


Outras Distribuições Amostrais 


8.1 Estimação de Parâmetros 


A idéia de usar X para tentar estimar u do capítulo anterior pode ser generalizada. Assim, seja X uma variável 
aleatória com uma certa distribuição (é comum pensar que a distribuição de X representa uma certa população). 
Seja 0 um parâmetro desta distribuição (por exemplo, 0 pode ser a taxa À da distribuição exponencial, ou o p 
da distribuição binomial). A partir de uma Amostragem Aleatória Simples X1, X2, ..., Xn de X gostaríamos de 
inventar alguma estatística ô que representasse 0 de alguma forma. 


Definição 1 Um estimador Ô de um parâmetro 0 (da distribuição de X, isto é, da população) é uma função 
das observações da amostra, isto é 


ô = 0(X1,X2,...,Xn) 


Note que 0 é, de fato, uma variável aleatória, com a sua própria distribuição de probabilidade. 
Por exemplo, nas últimas aulas, vimos como usar o estimador ji = X. Vimos que 


=- o 


E(X) = Var (X) RE 
onde ø? = Var (X). No caso particular em que X tem distribuição normal, vimos que X também tem distribuição 


normal. Enfim, o Teorema Central do Limite diz que, mesmo que X não tenha distribuição normal, a distribuição 
de X se aproximará de uma normal quando n — oo (desde que E(X),Var (X) sejam finitos). 


Definição 2 Um estimador Ô é dito não-viesado (não-viciado, não-tendencioso) quando 


E (0) =ð 
Viés (5) = E (ô) =ý 


Definição 3 Um estimador Ô4 é dito mais eficiente do que Ê> quando 


O viés de um estimador é 


Var (91) < Var (ô) 


Definição 4 Um(a segiiência de) estimador(es) Ô é dito consistente quando, para todo E > O fixo, 


lim, oo Pr (jo — o) > e) =0 


Por exemplo, a Lei dos Grandes Números diz exatamente que X é um estimador consistente de pu. 
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Proposição 5 Se 


lim, oo Viés (0) =0 e lm,soVar (5) =0 


então O é consistente. 


Prova. A demonstração é análoga à da Lei dos Grandes Números. Para começar, façamos o caso em que Ô é 
não-tendencioso, isto é, E (5) = 0. Então, pela desigualdade de Chebyshev: 


sapag 


Como c€ é fixo e lim, oo Var (5) = 0, pelo Teorema do Confronto 


lim Pr(Jô-E(0)|>e)=0 


n—00 


No caso em que Ô é tendencioso, devemos fazer uma pequena alteração. Pela desigualdade triangular: 
ê-o| < |ê- z (8)| + |E (8) -e| = è- = (8) | + [vss (8) 


Portanto 
e<|ð-0| = e< |ð- E (8)| + Viés (0) | = |ð - £ (0) > e — [Viés (8) 


e assim 


0 < Pr (|ð -0| > €) < Pr (lô - £ (ê) | > e- [viés (ô) l) 
Como o viés se aproxima de 0, é possível tomar n grande o suficiente para que |Viés Q | < 5. Assim 


o<Pr(P-9|>=)<Pr(P-E(0)|>5) 


Mas a probabilidade da direita se aproxima de 0 (como vimos acima, bastando trocar = por $). Assim, 


NIM 


lim Pr(Jô-0|>e) =0 


n—00 


E 
Em particular, note que se 0 é não-tendencioso e Var (0) — 0, então 0 será consistente. 


8.2 Estimadores pontuais da variância 


8.2.1 Média Conhecida 


Suponha que a média u = E (X) é conhecida, mas não sabemos o valor de o? = Var (X). Um possível estimador 
para o? = E (x = mw’) é 


Este estimador é não-viesado. De fato 


n n n 


pois para cada X; temos E (X;) = uu. 
Na prática, raramente sabemos o valor de u sem saber o valor de g?, então este estimador praticamente não 
é utilizado. 
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8.2.2 Média Desconhecida 


Se não soubermos u, como estimar a variância da população o2? Uma primeira idéia é tentar: 


Definição 6 4 variância verdadeira da amostra é o estimador 


A palavra “verdadeira” é essencial para distinguir este estimador da “variância da amostra” que definiremos 
em breve. Infelizmente, esta “variância verdadeira” é viesada! De fato: 


Proposição 7 Para a variância verdadeira da amostra, tem-se 


Prova. Em primeiro lugar, lembremos que 


E (X?) = Var (X) + (E (X)? 


Assim 
E((X%1-2)}) = Var(X -2)+ (E(X - 2) = 
Var (£ DX - Xan xn) m 


pois E (X1) = E (X) = u. Agora, como X1, X2, ..., Xn são independentes 


n2 


var (C 1 = = DES r a) © (n—1)° Var(X)+4Var(X)+..+Var(X) 
n 


way Ful » n=1, 


n2 n 


Juntando tudo: 


n à oa RR Eb XXS = 
B(8) - p (Zh (X&- ï) ) Eaa jj a La 
n n 
Ou seja, é? tem um viés de 
Viés (5º) = E (ô?) - 02 = —-— 


2 


Como 5º é viesado, muitos preferem usar o seguinte outro estimador para a variância de X: 


Definição 8 4 variância da amostra é o estimador 


obtido trocando o denominador n porn — 1 na variância verdadeira da amostra. 


Note-se que, enquanto 62 a princípio representa um estimador qualquer para o2, a notação S? é reservada 


para o estimador acima. Por outro lado, vamos utilizar 62 = (Variância Verdadeira da Amostra) no resto desta 
seção. Note que 
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Proposição 9 S2 é um estimador não viesado de 02, isto é 
E(S)=oº 


Prova. 
2 


n— 1 n—1 n 


) n n—l 


E 
Agora, para verificar se S2 é consistente, falta descobrir a variância de S°?! Temos: 


Proposição 10 


Var (S°) = (nua (jo 


onde 
ta = E (x = n“) 


Prova. Façamos apenas o caso n = 2. Se u = 0, então o? = E (xX?), e: 


2 4 

p= (= 8)? 4 (xo — x)? = dad, ga ho do 
E 4 
= p (5º) = EZ agp (x°) + 5 (E (x3) = aet 


Então 
2 _ p4 +30 i tato 
2 E 2 


Caso u £ 0, basta notar que S? não se altera ao tomarmos Y = X — u (pois teríamos Y = X — u também). O 
caso geral consiste em abrir somatórios enormes e analisar os termos todos um a um... E 


Var (8?) = E (St) — (E (3°)) 


Eo E ui aê p aD o , 5 
Proposição 11 | Se uy < œ, então S? e a variância verdadeira ô são ambos estimadores consistentes de 02. 


Prova. De fato, é fácil ver que E (9?) = 02 e Var (8S?) > 0 quando n — oo. Para 62, basta notar que 


E (6º) = Cim SENE 


Var (62) = (= L) var (2) >0 


também quando n — œo. E 


8.3 Erro Quadrático Médio 


; z Swi ni R E 2 z : 
Como vimos acima, ambos S2 e a variância verdadeira (que continuaremos chamando de °) são estimadores 
consistentes de o?; enquanto 9? é não-viesado, 62 tem a vantagem de ser mais eficiente. Qual é melhor? Um 
possível critério e calcular o erro quadrático médio de cada um deles, como definido a seguir: 
Definição 12 O erro quadrático médio de um estimador T de um parâmetro 0 é 


EQM (T;0) = E (í - 07) 


Proposição 13 
EQM (T;0) = Var (T) + (Viés(T))? 
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Prova. De fato 
E (cr E 07) = Var (T — 0) + (E (T — 0))? = Var (T) + (Viés(T)? 


E 
Note assim que 


EQM (82;02) = (n-1) (om (rodo + (-=) = poa do 
EQM (330) = =D u 3) ot 


ads ; 
Em outras palavras, 5º é melhor se tivermos 


EQM (6º;0”) < EQM(S;0?) + 
3n? — 8n +3 
peny 
lo (n — 1) (2n — 1) 


onde 5 é o chamado coeficiente de curtose da distribuição. No caso específico da distribuição normal, temos 


EQM (82;0º) = | 500! < - 70* = EQM (8º: 0?) 


à a (o é . a, : 
o que indica que, por este critério, o estimador viciado é? é melhor do que S2 para estimar o?! 


8.3.1 Exercícios 


Ex. 1 Seja X ~ Be(p) e seja X1, X2, X3, ..., Xn uma AAS de X. Considere os seguintes estimadores de p: 
a) di = X3 


b) do = 
a KaKa Dessa, 
c) ds = max(X1,X2,..., J+min( GA En ) 
2X DEM ago DO in(X1,X2,..,X 
d) pa = — (Eiras My Xn ma Xa Xn) (isto é, a média dos n — 2 termos centrais). 


=3 
Quais destes estimadores são viesados? Qual é mais eficiente? Qual tem o menor EQM? Algumas de suas 
respostas podem depender de p en. 


Ex. 2 Você quer estimar um parâmetro 0 e, para tanto, criou dois estimadores que acabam por ter as seguintes 
distribuições amostrais 


do ~ N(9,52) 
do ~ N(0-1,22) 


Na sua opinião, qual é melhor? Que critério você usou? 


Ex. 3 Considere dois estimadores ĝi e ĝ2, ambos não-viesados, isto é 
E (0) =E (êz) -0 


Suponha que Var (01) = 2Var (0). Queremos criar um novo estimador de 0 que seja uma combinação linear 
destes dois, isto é 
T= ab + bO5 


a) Que condição a e b têm de satisfazer para que T seja não-viesado? 
b) Sendo T não-viesado, como escolher a e b para que T tenha a menor variância possível? 
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Ex. 4 Seja X ~ Poi (A). Pode-se mostrar que u4 (X) = A+ 322. 

a) Sabemos que u = A; isto sugere o uso do estimador X para À. Calcule o seu EQM. 
b) Sabemos que o? = À; isto sugere o uso de S2 para estimar À. Calcule o seu EQM. 
c) Qual dos estimadores acima lhe parece melhor? 


Ex. 5 Seja X uma variável aleatória com densidade dada por 


f= ax + 4 se-—-l<a<l 
a 0, caso contrário 


Calcule u = E (X) em função de a e, a partir daí, crie um estimador não-viesado para a baseado numa AAS X1, 
Xə, ..., Xn (dica: use X). Qual é a variância deste estimador? 


Ex. 6 Suponha que X ~ U [0, 2a], onde gostaríamos de estimar o valor de u = a. Considere o estimador X. 
Mostre que X é não-viesado, consistente e calcule seu EQM. 


Ex. 7 Suponha que X ~ U [0, 2a], onde gostaríamos de estimar o valor de u = a. 
a) Considere o estimador M = max (X1, Xo,..., Xn) /2. Encontre a densidade de M (dica: use a acumulada!) e 


mostre que 
n 


ds 


a 


Mostre que M é consistente e calcule seu EQM. 
b) A partir de M, construa um novo estimador Ms não-viesado para a e calcule o seu EQM. Mo é consistente? 
c) Que estimador você prefere: X (do problema anterior), M ou M2? Por quê? 


Ex. 8 a) Seja X ~ NegBin (r,p). Tome apenas uma amostra X desta distribuição. Mostre que 


r—l 
X-—1 


p= 


é um estimador não-viesado de p. 

b) Você lança uma moeda (possivelmente viciada) até obter a quinta cara (K). Se a seqüência de lançamentos foi 
COCKCKCCCCKCKK, qual seria a sua estimativa da probabilidade p desta moeda dar cara? E se a seqüência 
fosse COKCKKCCKK? Escreva uma seqüência que levaria à estimativa p = 50%. 


Ex. 9 Seja X ~ Exp(A). Tome uma AAS X1, Xo desta distribuição. Considere os estimadores X e G = VXı X> 
para a média u = +. Calcule o viés de cada um deles. Qual deles tem o menor erro quadrático? 


Ex. 10 Suponha que u = E (X) é conhecido. Considere o estimador 


n 2 
y= Daa (X; — u) 
n 


de 02. Mostre que Y é não-viesado e que calcule seu erro quadrático médio em função de uy = E (X — w$. Em 
particular, se X é normal, quanto vale EQM y: o°) ? {Dica: suponha u = O para começar.] 


8.4 Distribuição Qui-quadrado 


Dada a distribuição de uma variável aleatória X, descobrimos no capítulo anterior o valor esperado e a variância 
de X. Mais ainda, no caso em que X tem distribuição normal, fomos capazes de descobrir a distribuição exata 
de X (que também era normal). 

Neste capítulo, já descobrimos o valor esperado e variância de S2 (pelo menos em função de o? = Var (X) e 
de ju (X)). Mas qual será a distribuição exata de S2? Novamente, a resposta depende da distribuição de X e é 
complicada no caso geral. 

No entanto, se X é normal, podemos resumir o que sabemos sobre S2 e descobrir sua distribuição como a 
seguir: 


Proposição 14 Se Z ~ N (0,1) então uy (Z) = 3. 
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Prova. Tomando 2? = 2u, temos: 
e {I 2 2 es du 4 o 
= E( Z-—0 É =f zte” Pdz = =| 4u?e 7" —— = =| u3/2e “du = 
Ha io a or), va VE do 


PO- 


Proposição 15 Se X é normal, então 


Prova. Como S2 não depende de u, podemos supor u = 0. Mas então X = o Z onde Z é normal padrão, isto 


é 
ga (X) = oa (2) = 30? 
i (n-Du-(n—-3)o! 3(n-1)-—(n-3) 20º 
ia “Pq Ga 
e, como 62 = Is, a outra afirmação segue de imediato. E 


Os resultados acima foram aplicações imediatas dos resultados das últimas seções. Agora estamos prontos 
para resolver uma série de “exercícios” que levam à definição da distribuição qui-quadrado (que é a distribuição 
de S2 no caso em que X é normal). 


Ex. 11 Seja X ~ N(0,1). Qual é a distribuição de Y = X2, seu valor esperado e variância? 
Solução 16 Asfda. de X e Y satisfazem (para y > 0) 
Fy (y) = Pr (Y < y) = Pr (X? < y) = Pr (~v9 < X < vy) = Fx (vy) — Fx (~v) 


Derivando dos dois lados: 


fy (y) (Fx (VY) — fx C vY)) 


q 
2/y 


No caso da distribuição normal, temos (para y > 0) 


2 —y/2 1/2 
OEE ROE (2) = Hyen 


Comparando com a distribuição Gama, vemos que 
11 
Y~T|-=,-= 
(55) 


E(Y)=1; Var(Y)=2 


e portanto 


Ex. 12 Sejam X1, X2, ..., Xn ~ N (0,1) e independentes. Qual é a distribuição de Y = 5) X2? 


1 1 
2º2 


1 1 11 n 1 
ror(st;totos) r(55) 


e, portanto, E (Y) =n e Var (Y) =2n. 


Solução 17 Como cada X? tem distribuição T( J; basta somá-las: 


Esta distribuição é importante o suficiente para ganhar um nome à parte: 
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Definição 18 A distribuição T (E, 5) é também chamada de qui-quadrado com n graus de liberdade, cuja 
notação é 
Y ~x’ (n) 


Em particular, E (Y) = n e Var (Y) = 2n. A fórmula exata da densidade é 


0, caso contrário 


fu) = l ee e sey>0 


Proposição 19 A distribuição de S? é determinada por 


(n — 1) 9? 


— ex (n—1) 


o 


Prova. Façamos apenas o caso n = 2. Então 


P (mm). fo 


o? 202 
Como X1, X2 ~ N (u, 02), temos que Xi- Xo ~ N (0,202), isto é, Z = E ~ N (0,1). Assim, S =Zm 
N (0,1). m 
Na prática, usam-se tabelas para calcular probabilidades associadas à distribuição qui-quadrado com até 30 
graus de liberdade. Depois disto, usa-se a seguinte aproximação que não demonstraremos: 


Proposição 20 Se Y ~ x? (n) então Z = v2Y — V2n— 1 é aproximadamente N (0,1) (especialmente para n 
grande). 


8.4.1 Exercícios 


Ex. 13 Seja X ~ N (0,0°) e considere uma AAS de tamanho 2 de X. Calcule Pr (X? + X3 < o°). 
Ex. 14 Suponha que X ~ x? (5). Determine Pr (2 < X < 4). 


Ex. 15 Suponha que X ~ N (1,9). Retire uma amostra Xı, Xə, ..., Xio e calcule S? para esta amostra. Use 
uma tabela para estimar a probabilidade Pr (9? < 10) e o valor de a tal que Pr (8? < a) = 5%. 


Ex. 16 Encontre os percentis P; e Pos (isto é, os 0,05 e 0,95 quantis) da distribuição x? (10). 
Ex. 17 Seja Y ~ x? (41). Use a aproximação normal para estimar Pr (Y > 50) e Pr(Y < 18). Para que valor 


de a teríamos Pr (Y > a) = 5%? 


8.5 Distribuição t de Student 


O químico e estatístico inglês William Sealy Gosset (1876-1937) trabalhava na cervejaria Guiness em Dublin e 
aplicava seus métodos estatísticos (que frequentemente se utilizavam de amostras “pequenas” ) para selecionar as 
melhores variedades de cevada. Como a cervejaria proibia que seus funcionários publicassem artigos científicos 
para proteger seus segredos industriais, Gosset publicou seus resultados sob o pseudônimo “Student”. Um de seus 
resultados foi a determinação da distribuição t (que ficou conhecida como “t de Student”), publicada em 1908. 


Definição 21 Sejam Z ~ N (0,1) e X ~ x? (n) independentes. A distribuição da variável 


é chamda de t de Student com n graus de liberdade (notação: T ~ t(n)). 
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Proposição 22 A densidade de T ~ t(n) é 


a RE 
f(t) = TDen (t;n) = a 2L (1 + E) 


Prova. A demonstração é simplesmente uma aplicação dos métodos de mudança de variáveis, mas as contas 


ficam um bocado longas... A distribuição conjunta de X e Z é o produto das marginais 
q(n—2)/2e-7/2 1 


f (2:2) = N VA 


e772 (para x > 0) 


Façamos a mudança de variáveis para X e T = T O Jacobiano é 


ə (X,T 0 vn 
T AA AS VnZX—3/2 — — 
9(X,2) | a areh vX 


Então a nova densidade conjunta é obtida susbtituindo z = tą/x/n e usando este Jacobiano: 


x”/2e —2/2 3 
f (x,t) = f (x,tvx/n) z- T z/(2n) para x > 0 


Integrando com relação a x encontramos a marginal de t: 


1 ss 2 
Hae n/2 -(1+t /n)z/2q 
f(t) mnnt) 2T oa! g x 


Tomando u = 5 (1 + t) x, temos du = > (1 + t) da e 


1 oo n/2 E du o 
ft) = DR) ( T T0 


1 
2 
9(n+1)/2 fa £2 —(n+1)/2 pr o 
= ssa — u 

Jmn DAT (n/2) n É da 


Enfim, usando a definição da função Gama: 


10= vera (+) E) 


Note que f (t) é uma função par; de fato, o gráfico de f (t) é bastante assemelhado ao de uma distribuição 
normal, mas ligeiramente menos “concentrada” na origem (isto é, a distribuição t tem “caudas mais grossas”). 
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Proposição 23 Se T = t(n), então 


IV 


(desde que n 2) 


Var(T) = (desde quen > 3) 


Med(T) = 0! (qualquer n 1) 


Nos outros casos, o valor esperado e variância de T não existem. 


IV 


Prova. É fácil ver que a mediana é 0 pois f (t) é par. Quanto ao valor esperado: 


sa NT (+D/2 
E(M=k | 4(14— dt 
2 Bê n 


onde k é uma constante que não depende de t. Por simetria, se esta integral existir, será 0; para ver se a integral 
2 . x . 
converge, basta tomar u = 1 + £ e verificar a convergência de 


eo —(n+1)/2 Bs E a 
t( 1+ J ia di= (+ 1)/2 04u E utt-n)/2 n 
0 n 1 2 (1-n)/22] 1 


Esta integral converge desde que 1 — n < O, isto é, n > 1. 
Enfim, para calcular Var (T) = E (T°), façamos: 


E (T°) = 2 f era vor h H i 


AN, 5 
É TG) h SGR 3 
- TA e (A eae a 


t=0 


Fazendo u = t4/ 22, temos: 
2T (== 


, H) on f> PNUD 
Bee a (1+5) Zu 


Mas, se n > 2, podemos criar a variável Y ~ t(n — 2) cuja densidade será: 
T(n=1 2 n—(n-1)/2 
( 2 ) (1 + y ) 
re vm) Uta 
Como a integral de f (y) tem de ser 1, concluímos que 
Tr n=1 oo 2 —(n—1)/2 1 
Ave Ah tna 2 


Esta integral é exatamente a integral que precisávamos para terminar o cálculo de Æ (T); De fato: 


f) = 


EIN = (2) n ii 2) y/n (n= 2) 
U = vanr (&)n—1 T T(>) o 
n T#)r (#2) n n-1 2 n 
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— > 1 confirma que a distribuição t de Student “se espalha mais” do que N (0,1) 


128 
Portanto, Var (T) = E. m 
Em particular, Var (T) = 
(que tem variância 1), ou seja, tem “caudas mais grossas”. 
Os casos n = 1 e n = 2 podem ser analisados separadamente: 
e A distribuição t (1) tem densidade dada por 
T (1) py 1 1 
TDen (t; 1) = -——— = pas 
1) Erl 2 rip? 
que é exatamente a distribuição de Cauchy com f.d.a. dada por 
1 tant 
pa = p 
2 T 
(já havíamos visto que esta distribuição não tem média nem variância). 
e A distribuição t (2) tem densidade 
r (2) ( o 1 
TDen (t;2) = ——+2— — = 
Nise) T(1)v27 2 (2 + t2)3/2 
cuja distribuição acumulada também pode ser encontrada analiticamente 
TDist (t; 2) 5 (1+ t ) 
ist (t; 2) = — 
2 V2 +t? 


. Xn uma AAS da variável aleatória normal X. Então X e S2 são independentes, 
Xı+Xə 
2 


8.5.1 Para que serve? 
Teorema 24 Seja X1, Xə, .. 
X 
= já 
T= e t(n—l 
Prova. Vamos mostrar que X e 9? são independentes apenas no caso n = 2. De fato, sabemos que X1 +X e 


as = (Estate serão independentes. 
Para a segunda afirmação, sabemos que 
X-u (n— 1) 8º 3 
Z= ~ N (0,1) eY ~ n—1 
Te N (0,1) r~ (n=) 
Como X e 9? são independentes para qualquer n, Z e Y também o serão. Pela definição da distribuição t, temos: 


o 


Xı — Xə são independentes (veja a demonstração da proposição 7.4 com a = 1 e b = —1). Portanto, X = 


É me t(n—1) 


VAR 


Expandindo o lado esquerdo: 


concluindo a demonstração. E 
Exemplo 25 Seja X ~ N (uu, o?) Tome uma AAS de X com 8 amostras. Calcule e compare a) Pr (X -u> 0/2) 


com b) Pr (X — u > 8/2): 
SA ~ N (0,1), temos: 
X-u _ v8 


"R > J ) = Pr (z > v2) = 1 — NormalDist (v3) = 7.865% 


a) Como Z = 
Pr (X — u > 0/2) -r ( 
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b) Como T = Sr ~ t(7), temos: 


Pr (x u> z) = Pr [A > $) = Pr (T z v2) = 1 — TDist (v3 7) = 10.01% 


Note como as duas probabilidades são siginificativamente diferentes. No entanto, seo é desconhecido, é impossível 
verificar se o evento em (a) acontece ou não — enquanto o evento em (b) não depende de o para absolutamente 
nada! 


Em suma, a distribuição t é utilizada para estimar ou testar hipóteses sobre a distribuição de u quando o é 
desconhecido e n é pequeno. 


Exemplo 26 Vamos encontrar um intervalo de confiança para u baseado no X e S? de uma amostra de 8 
elementos. Para começar, encontre os 0.025 e 0.975 percentis da distribuição t (T): 


TInv (0.975; 7) = 2.365 e TInv (0.025; 7) = —2.365 
Em outras palavras: 


2.365 
v8 


Pr (|T| < 2.365) = 95% = Pr (1x ul < 5) = 95% = Pr (|X — u| < 0.8365) = 95% 


o que nos dá o intervalo para uu 
u € [X — 0.8365, X + 0.8365] 


com 95% de confiança! Este processo é facilmente adaptável para qualquer outro número n de amostras! . 


8.6 A distribuição F de Snedecor 


O nome desta distribuição vem de George W. Snedecor (1881 - 1974), um matemático e físico americano espe- 
cialmente interessado em experimentos biológicos e agrícolas. 


Definição 27 Sejam X ~ x? (n) e Y ~ x? (m) variáveis independentes. A distribuição da variável 


—_ Y/m 
W= X/n 


é chamada de F (de Snedecor) com m graus de liberdade no numerador e n graus de liberdade no 
denominador (notação: W ~ F(m,n)). 


Proposição 28 Se W ~ F (m,n), então = ~ F (n,m). 


Prova. Claro, pois 
Y/m 1 X/n 
X/jn W Y/m 


e esta também é a razão de duas distribuições qui-quadrado independentes, e portanto satisfaz a definição da 
distribuição F (n,m). m 


1 Se soubéssemos o usaríamos Z = vgf= ~ N (0,1), e então: 


Normallnv (0.975) = 1.960 => 


- 1.960 > 
> Pr(|Z| < 1.960) = 95% => Pr (1x — ul < e) = 95% => Pr (|X — u| < 0.6930) = 95% 
> HE [X — 0.6930, X + 0.6930] com 95% de confiança. 
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Proposição 29 A densidade de W ~ F (m,n) é dada por 


T (2H) mm/2nn/2 qtm/2)—1 


AA o sew>0 
T(F)T(3) (mma) 


f (ww) = FDen (w; m,n) = 


e f(w)=0 caso w < 0. 


Prova. De novo, é só fazer um monte de contas. Afinal, se X ~ x? (n) e Y ~ xX? (m) são independentes, sua 
distribuição conjunta é (para x,y > 0): 


1 
Z „n/2—1 —2/2 m/2—1 „—y/2 
(erre Cremer 


Fazendo a transformação (X,Y) — (W,Y) temos 


nY n 
y- Y LJD] -a i aY 
mW ” |9(W.Y) 1 mW? 


Portanto, a distribuição conjunta de W e Y será 


= 1 ny Rede —ny/(2muw) 1 m/2-1,—y/2 ny 
aai (rm 2n/2 an] e El) Qm/2º E mw? 
- Em pn a) 


mui TB) D G) 204A 


Note que esta fórmula vale para w,y > 0 (caso contrário, f = 0). Integrando com relação a y encontraremos a 
densidade marginal de W: 


n/2 


ad Em É m+n)/2-1 (-=( —)) 
= Srt ia | y exp 2 LE dy 


Fazendo u = (1 + =) & = =n 4, obtemos 


n n/2 oo m-+n)/2—1 
f (w) = 1 (E 2mw ( )/ ulmAn)/2-1,-—u 2mwdu 2 
(2) 2m+n)/2 Jo \mw+n mw+n 


(m+n)/2 poo 
2mw u™tn)/2-1 e7“ du = 
9(m+n)/2 Amu +n o 
En)/2 ( 


o 1 a n/2 Imu gi m+n B 
-wT (Z)T (2) 2m4 mw +n 2 
T min) m™/2n”r/2 yltm/2)—1 


E 

O formato da distribuição F (m, n) varia com m e n. Para m = 1 e m = 2, a densidade é decrescente, enquanto 
para m > 3 a densidade é unimodal. Para m = 1, a densidade tem o eixo vertical como assíntota. Veja alguns 
exemplos abaixo (se sua impressão for colorida, n = 1 é preto, n = 2 é azul e n = 5 é vermelho): 
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F (3,1), F (3,2) e F(3,5) > 0 quando w > 0. F(10,1) (pico baixo), F (10,2) e F (10,5) (pico alto) 


Os cálculos do valor esperado e variância de W são ainda mais feios e difíceis do que os anteriores — e, portanto, 
sero deixados para o leitor. 


Proposição 30 Se W ~ F (m,n), então 


E(W) = | (desde quen > 3) 
Var (W) = —— —. (desde quen > 5) 
Nos outros casos, o valor esperado e variância de W não existem. 
Prova. Temos 
T (mr m™/2n”/2 o0 (m/2)—1 
E (W) = a | - (m+n)/2 dw = 
PET) Jo (n+mu) 
e 


T (min) m/2nn/2 T pe d ((n + mw) 
r(3)r (3) 0 m (- em +1) 


Fazendo a integração por partes, o termo “uv” será 0 desde que = —1 > &, isto é, desde que n > 2. Neste 
caso, ficamos apenas com o outro termo f vdu: 


T (22 m/2pn/2 2 oo m/2—1 
E(W) = Ca f dis a dw 
r(3})r(4) m(m+n-=2)jo 2 (n+mw) t/t 
Agora façamos u = ew, Note que 
n+muw=n+m— = — ((n — 2) + mu) 


n— 2 n—2 
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5 o) o T (242) m™/2n”/2 1 pr a m/2—1 u™/2-1 m= (m+n)/2—1 m PS 
PTS) m+n-—2 Jo n—2 ((n — 2) + mu) ™ "3/2 n n—2 


a) m™/2n”/2 1 með n/2—1 poo u™/2-1 
2 m n ( ) f =2 a du 
P(T(S) m+n-2\ n o (n= 2) + mu) ™ te- 


Note que, a menos das constantes, a integral que nos resta calcular é a densidade de uma variável X ~ F (m,n — 2). 
De fato: 


oo T (r=2) m™/2 (n — 2)072/2 pœ m/2—1 
f f (x) da = 1> q [ 7 (m+n—2)/2 dy =1> 
o r(3)r (25) o ((n—-2) +ma) 
oo m/2—1 T(2\r n—2 
+ [mata = => 
o ((n=2)+ mz) T (12-2) m™/2 (n — 2) 
Juntando tudo: 
poy = E) mn i (: = ao r()r (852) — 
r(%)r(2) m+n=2 n T (2=2=2) mm/2 (n — 2)®-2/2 
m+n—2 2n 1 n 


2 n—-2m+n-—?2 n—2 


O cálculo de E (w?) pode ser feito de forma análoga, usando integrais por partes duas vezes e então ajustando 
a variável de integração para ficar com uma integral conhecida. Ao final, encontramos (desde que n > 4): 


ã n? (m +2) 
E a 
e, portanto 
sea Do m+) (nm \ 2m m+n-2) 
PISE TE S a a = cm(n-2P(n—4) 
E 


8.6.1 Para que serve? 


Teorema 31 Seja Xı, Xə, ..., Xn uma AAS da variável aleatória X ~ N (1,03) e seja Yi, Y2,..., YM uma 
AAS da variável aleatória Y ~ N (u,,03) (onde X e Y são independentes). Então: 


S2 2 
W= n (m-=1,n-— 1) 
5% 03 
Prova. Sabemos que 
(n — 1) 83 (m — 1) S2 
3 E ~y?’ (n-1)e 3 X ~y? (m-1) 
91 03 


e, como X e Y são independentes, Sx e Sy também o serão. Portanto, pela definição da distribuição F de 
Snedecor: 


~ F(m-—1,n-— 1) 


ou seja, simplificando o lado esquerdo 
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Exemplo 32 Sejam X ~ N (11,02) eY N (u2,0°) (com a mesma variância). Tome uma AAS de X com 9 
amostras e uma AAS de Y com 13 amostras. Calcule Pr (Sx > Sy) e encontre a tal que Pr (Sy > aSx) = 0.95. 
Seja W = z. Pelo teorema anterior, sabemos que W ~ F (12,8). Então: 


Pr(Sx > Sy) = Pr(W < 1) = FDist (1; 12,8) = 48.261% 
Pr(Sy >aSx) = Pr(W >a) = 95% = a = FInv (0.05; 12,8) = 0.351 


Nota 33 Ao consultar uma tabela, lembre-se que 


Pr(=>—>>|=1 
Pr(W > a) + (m>5) 


ou seja, 


1 1 
Pr(W = P =l 
r(W >a)=p4 (7 >5) p 


Mas, como W ~ F(m,n) & = ~ F (n,m), você pode encontrar o valor de a na tabela F (m,n) procurando a 
probabilidade p ou encontrar o valor de i na tabela F (n,m) procurando 1 — p. Em outras palavras: 


FInv (p; m,n) = 


1 
FInv(1—p;n,m) 


Graças a esta propriedade, basta termos tabelas com O < p < 0.5 — outros valores serão obtidos pela inversão 
acima. 


Em suma, a distribuição F de Snedecor é utilizada quando queremos avaliar probabilidades e hipóteses que 
lidam com as variâncias de duas populações distintas (análise de variância). 


8.6.2 Exercícios 

Ex. 18 Seja X ~ t(n). Determine a distribuição de Y = X?. 

Ex. 19 Seja X ~ F (5,2). Com o auxílio de uma tabela ou computador, calcule Pr (X < 4). 

Ex. 20 Seja X =» t(5). Com o auxílio de uma tabela ou computador, calcule Pr (X > 2). 

Ex. 21 Encontre os percentis Po.os e Po.95 para F (3;5) e compare-os com os mesmos percentis de F (5;3). 


Ex. 22 Encontre os percentis Po.os e Po.95 para t(5). Qual a relação entre eles? 


Ex. 23 Mostre que a moda de F (m;n) é -— = param > 2. Param < 2, mostre que a densidade é decrescente 
e, portanto, a moda é 0. 


Ex. 24 Seja X ~ N (u,02). Tomando 15 amostras desta distribuição, calculam-se X e S2. 

a) Calcule Pr (X > u+20 | 9? = 25). 

b) Calcule Pr (X > u +28). 

c) Encontre o valor de a tal que Pr (X — u > as) = 95% 

d) Encontre o valor de b tal que Pr (—bS < X — u < bS) = 95%. A partir daqui, conclua que u € |X — bS, X + b5] 
com 95% de confiança. 


Ex. 25 Suponha que X ~ N (ua, o°) eY nN (u2,40°) (isto é, o desvio-padrão de Y é o dobro do desvio-padrão 
de X). Você coleta 17 amostras de X e 7T amostras de Y e encontra Sx = Sy. Para verificar se isto é verossímil, 
calcule 


Pr (Sx > Sy) 


para 17 amostras independentes de X eT de Y. 
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8.7 Exercícios de Provas 


Ex. 26 (A2 2005.2) Seja X uma variável aleatória com distribuição uniforme no intervalo [0,a]. Considere 
uma AAS Xı, Xə, ..., Xn de tamanho n de X. Seja Y = max (X1, X5,...,Xn). E fácil ver que a função de 
distribuição acumulada de Y é 


0, para y < 0 
F(y)=4 E,para0O<y<a 
1, paray>a 
a) Mostre que 
n n 2 
E(Y)= e Var(Y) = 


— aq 5 a 
n+1 (n +) (n+2) 


b) Seja Z = "HY. Considerando Z como um estimador para a, calcule Viés (Z) e EQM (Z;a). 


n 
c) Os estimadores Y e Z são consistentes para estimar a? Explique. 


Ex. 27 (A2 2005.2) Encontre a moda da distribuição x? (n) para n > 2. 


Ex. 28 (A2 2005.2) Uma população tem distribuição X ~ N (50, 102). Desta população, retira-se uma amostra 
com 10 elementos e calculam-se X e S2. Encontre: 

a) Pr (52 < 163,16). 

b) Os valores de a e b tais que Pr (S? < a) = Pr (8? > b) = 5%. 

c) O valor de c tal que Pr (|X — 50| < cS) = 90%. 


Ex. 29 (AS 2005.2) Os pacotes de açúcar da Onion Sugar Inc. tem pesos com distribuição normal de média 
u = 1005g e desvio-padrão o = 10g. O jornal Tabajara está prestes a avaliar a denúncia de que a Onion rouba 
nos pesos dos pacotes (ou tem um péssimo controle de qualidade) pesando 9 pacotes de açúcar e calculando sua 


média X e seu S2 = Eua 


a) Qual a probabilidade da primeiro destes 9 pacotes ter menos de 1kg? 

b) Qual a probabilidade dos 9 pacotes terem, somados, 9kg ou menos? 

c) Qual a probabilidade dos 9 pacotes terem um S? maior do que 10092? 

d) Sem usar os valores exatos de p e o, calcule Pr (X = p| > 0.50) e compare-a com Pr (X = p| > 0.55). 


Ex. 30 (AS 2005.2) 4 distribuição de probabilidade da variável X é uniforme em [0,2a]. Desta distribuição, 


retira-se uma amostragem aleatória simples com apenas duas amostras independentes Xı e Xə. Seja Z = vA, 


Pode-se mostrar que E (Z) = $, Var (Z) = 44 e a f.d.p. e a f.d.a de Z são respectivamente 


324 
0, paraz < 0 
f(z) = teng pan Oces e F(z)=4 2 (1-ln2?), para0<z<1 
0, caso contrário 
1, paraz > 1 


cujos principais quantis estão na tabela abaixo 


F(z) 0.05 01 015 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.85 09 0.95 
ž 0.093 0.143 0.185 0.224 0.295 0.364 0.432 0.502 0.578 0.662 0.711 0.767 0.837 


a) Considere o uso do estimador G = XX» para estimar a. Este estimador é viesado? Calcule o erro quadrático 
médio de G (como estimador para a). 

b) A média geométrica de duas amostras foi G = VX1ıXə = 2.47. Encontre um intervalo de confiança para a com 
80% de confiança. 
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Respostas dos Exercícios do Capítulo 1 


Ex. 1 Note, estamos pedindo apenas espaços amostrais, não estamos pedindo probabilidades: 
S=(KKK,KKC,KCK,CKK,CCK,CKC,KCC,CCC) 

S = (2,3,4,5,6,7,8,9,10,11,12) 

S = {—5, —4, —3, —2, —1,0, 1, 2,3,4,5} 


1,2,3,4, É 6} 
Flamengo) :) :) :) Tá bom, S = (Flamengo, Fluminense, Botafogo, Vasco, ..., São Caetano} 
) S = [0,24] (onde marquei o tempo em horas) 
S = [0,45] (em Graus Celsius) 
Num mundo de moedas e dados justos, lançamentos independentes e times que não fazem pré-temporada, apenas 
(a) é eqüiprovável. 


= 
= 
= 10, 
={ 


zua wo aono oaa 


>. 


Ex. 2 a) Como A e A são disjuntos: 
Pr (AU A) = Pr (A) + Pr (A) 


Mas AUA =S e Pr(§)=1. 
b) Como À = S e Pr (S) = 1 usando o item anterior, Pr (0) = 1 — Pr (S) = 0. 
c) Faça um diagrama. Como B — A e A são mutuamente excludentes: 


Pr((B— A)U A) =Pr(B — A) + Pr (A) 
Mas a união do lado esquerdo é AU B, isto é: 
Pr (AU B) = Pr (A) + Pr (B — A) 
Agora, como B — A e AN B são mutuamente excludentes, 
Pr((B-— AJU(ANB))=Pr(B- A)+Pr(AnNB) 
e a união do lado esquerdo é B, Então: 
Pr(B) =Pr(B- A)+Pr(ANB) 


Tire Pr(B — A) daqui e substitua na outra para acabar o problema. 
d) Vimos ali em cima que 


Pr(B- A) = Pr (B) — Pr (AN B) 
Como, neste caso, A C B, temos AN B = A, isto é 
Pr(B)—Pr(A)=Pr(B-A)>0 


pois toda probabilidade é maior ou igual a O. Acabou. 
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Ex. 3 Desenhe um diagrama de Venn - há 7 pedaços excludentes para AU BUC. Escreva cada termo da 
expressão do lado direito em função destes T pedaços, some tudo e veja que, depois de cortar muita coisa, cada 
pedaço aparece representado apenas uma vez, dando AU BUC. 


Ex. 4 A princípio, temos Pr(ANC) =0, Pr(C) = 0.3, Pr (AN B) = 0.3, Pr(BNC) = 0.1: 


AB AB AB AB Total 


C 0 0 0.1 0.3 
C 
Total 0.3 


Como Pr (A) = 0.4 e Pr (B) = 0.5, conseguimos completar dois novos totais: 


AB AB AB AB Total 
C 0o 0 0.1 0.3 


C 
Total 0.3 04-0.3=01 0.5-0.3 = 0.2 


Agora virou Sudoku: 
AB AB AB AB Total 
C 0 0 01 02 03 
O 0.3 01 01 02 0.7 
Total 0.3 01 02 04 1 


a) 0 b) 0.5 c) 0.3 d) 0.1 e) 0.8 
Ex. 5 Entre 0.1 e 0.6. 


Ex. 6 Fazendo S = (CCC,CCK,CKC,KCC,KKC,KCK,CKK,KKK) é razoáve usar um modelo eqüiprovável. 

Como A=(COCCCCK,KKC KKK}, B=(KCO,KCK,KKC,KKK|eC=(KKK,CCK,CKC,KCC,KKC,KCK,CK 
temos: 

Pr(A) = $; Pr(B)= $. Pr(C)=% 

A :dois primeiros resultados diferentes, probabilidade $ 

C :nenhuma cara, todas são coroas, probabilidade 5 

ANB: duas caras nos dois primeiros lançamentos, A z Ł 

BAC: o primeiro é cara, que é B de novo, com $ de chance. 

BUC: basta uma cara, que é C de novo, com Z de chance. 


AU B: cara de primeira ou duas coroas nas duas primeiras, £ = 3 de chance. 


3 
Ex. 7 É quase igual ao anterior, mas CCC e CCK viram simplesmente CC, enquanto KKC e KKK viram 
simplesmente KK (pois o jogo acaba dois a zero). Agora A = {CC,KK}, B = {KK,KCK,KOC} e C = 
{KK,CCK,CKC, KOC, KCK} (note como CCK some daqui, pois esta última coroa não exisitirá). As proba- 
bilidades que envolvem A e B não mudam, mas C mudou: Pr (C) = £ = ł, Pr (Č) = 4, Pr (B U C) = Pr (C) = E 
ePr(BNC)=Pr(B) = a. 


Ex. 8 Probabilidade — = 5 que não se altera se os dados forem da mesma cor. 
Ex. 9 2 


Ex. 10 — 


Ex. 12 a) db) dm = 49.5% 


Ex. 13 Não. Podia ser Pr(ABC) = Pr(BCA) = Pr(CAB) = 5 e as outras três ordens impossíveis, por 


exemplo. 


Ex. 14 Serão mutuamente excludentes quando b—a < 1 oub-a>6. 


Ex. 15 ([EXCEL]) Pense na probabilidade de NÃO haver par algum de aniversário repetidos, depois use a lei 
do complemento. A probabilidade de HAVER uma coincidência é: 


| 365.364.363.... (365 — n + 1) 
365" 


Surpreendentemente, n = 23 já dá mais de 50% de chance. 


Ex. 16 (*) a) Jogando tudo duma vez, Pr (prêmio) = 1 = 10%. JOgando uma vez por semana, a chance de 
não ganhar nada é ES = 90.4382%, então a chance de ganhar alguma coisa é 


99 10 
-(>) =9.561 1 
1 (50) 9.5618% < 10% 


Se você só quer ganhar ALGUMA coisa, melhor jogar tudo de uma vez. 
b) Use cálculo, encontre o mínimo de f (x) em (—1,00), que será f (0) = 0. 
c) Agora as probabilidades de ganhar são 


n 


Jogando tudo de uma vez : N 
1 n 
Jogando em n sorteios : 1-— (1 — x) 
Mas, tomando x = — + no item (b), conclui-se que 


isto é 


Melhor jogar tudo de uma vez! 

Ex. 17 z 

Ex. 18 Árvore. Dá a 

Ex. 19 Tá errado pra caramba. Se fossem 60% das mulheres e 55% dos homens, seriam 115% dos brasileiros? 


Não se somam laranjas com bananas assim! Faríamos o problema com uma média ponderada de 12% e 35%, 
ponderada pela quantidade de homens e mulheres no Brasil. Se for meio a meio, então seria 


% = 23.5% 


12 +35 
2 


dos brasileiros. 
Ex. 20 Ambas as probabilidades são 50%. São independentes, mas não são mutuamente excludentes. 


Ex. 21 Agora as probabilidades são 78.4% para Kuerten vencer o jogo; 58% de acabar em dois sets. E, sabido 


que acabou em dois sets, Kuerten sobe para = = 84.483% de chance de vencer, então estes eventos não são 


independentes. Também não são mutuamente excludentes — Kuerten pode vencer 2 a Q. 


Ex. 22 Pr(4) = =: Pr(B) = 3; Pr(A e B) = &; Pr(A|B) = —— = >. Não são independentes, nem 
excludentes. 
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Ex. 23 Tabela começa assim: 


R R 
M 0.2 
M 0.2 
0.7 1.0 
Complete a la Sudoku: 
R R 
M 01 01 0.2 
M 0.6 02 0.8 
0.7 0.3 10 


Como Pr (Ralph) = 0.7 + Pr (Ralph|Morgado) = = = 0.5 os eventos não são independentes. 


Ex. 24 Não se somam probabilidades de eventos que não são mutuamente excludentes! A resposta correta é 


Ex. 25 Agora, a probabilidade é 


Queremos 


Então n = 13 lançamentos serve. 
Ex. 27 (Bertrand 's Box) 2 
Ex. 28 (Monty Hall) Troque, pois a chance da outra porta ter o prêmio é Z, 


Ex. 29 3 de novo (é igual ao da caixa acima). 


Ex. 30 Tabela em milhões: 


Brancos Negros Outros Total 
Supervisão 3.4 2.15 0.95 6.5 
Livre 170 — 3.4 = 166.6 23.89 — 2.15 = 21.74 73.08 — 0.95 = 72.13 260.47 
Total vos = 170 25 = 23.89 Ts = 73.08 266.97 


o) zby = È > m = BAAT = 41.072 
b) Dados do problema! São 9% e 2%, respectivamente. 
c) 213 = 33.08% para negros e — = 52.31% para brancos 


.o 
d) ara = 8.35% e JEE — 63.96% 


e) Não. Pr (Supervisão|Branco) = 2% < sã = 2.434% = Pr (Supervisão) 
Ex. 31 Dá 49% e uns quebrados. 
Ex. 32 Sim, sim, sim e não. 
Ex. 33 
Pr(A|B) = Pr(A)= Pr(B|A) = Pr (B) = 1 — Pr (B|A) = 1 — Pr (B) > 


> Pr (B|A) = Pr (B) = Pr (A|B) = Pr (A) 


1.1. EXERCÍCIOS DE PROVAS 5 


Ex. 34 (*) Difícil este, leia com MUITO cuidado: eu jogo n + 1 moedas, você joga n. Note que eu tenho mais 
coroas ou mais caras com (pois eu tenho mais moedas), mas não ambos (porque eu só tenho UMA moeda a mais, 
não dá para eu ganhar em caras e em coroas também). Por simetria, a chance de eu ter mais caras é igual à 


chance de eu ter mais coroas. Assim, a probabilidade é >. 


Ex. 35 a) Sim 
ALB=>Pr(B|IA)<Pr(B)=>Pr(AeB)<Pr(A)Pr(B)>Pr(A|B)<Pr(4)> BLA 


b) Falso. Por exemplo, se A = C, está obviamente errado. o = 
c) Falso. Por exemplo, se Pr(ABC) = 10% e Pr (ABC) = Pr (ABC) = Pr (ABC) = 30%, note que A repele B 
e que C repele B, mas A e C juntos ATRAEM B. 


1.1 Exercícios de Provas 


Ex. sab (A1 anos. 2) E r VVA, VAV, AVV, AAV, AV A, V AA, AAA} com probabilidades respectivamente 
3 2 4 


de Fi 27» 27? D Te 2 
a) Pr (X?X )= TAA T F 


b) Pr(XXX|XX? yL 8 Soa 
Pr | j= mng 


Ex. 37 (A1 2004.2) a) Mais provável de ter 0 filhos, com 29% de chance. 


b) Mais provável é 1 filho, com Heo = = = 30.99% de chance. 


c) Supondo uma amostra fictícia de 100 mulheres, são 


(29) (0) + (16) (1) + (22) (2) + (15) (3) + (8) (4) + (4) (5) + (3) (6) +7 + 8 + 9 = 199 filhos 


A chance de ser filho único é $$ = 8.04% 


5432 _ 


. 4 
c) 5 provas no mesmo dia com chance (5) = A 


1296 

. E ; . 3 
4 provas num dia e uma no outro: há 5 opções para a “outra prova”. As outras 4 caem juntas com (5) de 
chance, e sobram ê para a prova singular. Total: 


(DN 2 
6/16) 1296 


Total: e = 2.01% 


Ex. 39 (AS 2005.2) Gemigemi é Kuerten e Xarapova é Ralph do problema acima. Então: 
a) Pr (Berrando vencer) = 78.4% 

b) Pr(2 sets) = 58% 

c) Pr(Berrando 2 a 0) = 49% 

d) Pr(2 a 0 | Berrando venceu) = — = 62.5% 
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Ex. 1 
65 30 5 1 
Pr(X1=0 RR 
p=) 10990 15 3 
g= = 2(4)-8-2 
90 90 15 
Pr(Xy =2) 4-3 -12 2 
109 90 15 
Ex. 2 
654 5 1 
Pr(X2=0) = => = 
=n] 1098 30 6 
Pm- = (£54 Bl 
1098 30 2 
eg 
1098 30 10 
432 1 
Pip = = Ce 
E) 1098 30 
Ex. 3 
Pr(Cara) = 80% 
Pr(X3=0) = (0.2)! = 0.0016 
Pr(X3=1) = 4(0.9) (0.8) = 0.0256 
Pr(X3=2) = 6(0.2)2 (0.8) = 0.1536 
Pr(X3=3) = 4(0.2) (0.8)? = 0.4096 
Pr(X3=4) = (0.8) = 0.4096 
Pr(1 < X3 <3) = 0.0256 + 0.1536 = 0.1792 
Ex. 4 A cada set, o vencedor pode ser K ou C (como no capítulo anterior). Sabemos que Pr (KK) = Pr (CC) = 
1 portanto Pr( X; = 2) = - | - = $. A outra única opção é 3 sets, isto é, Pr (X, = 3) = 5 também. A 


distribuição é: 
T3 2 3 
p(z3) 0.5 0.5 


Ex. 5 a) As marginais estão às margens da tabela: 


Y; \ X5 1 2 3 Marginal de Y; 
0 0.1 0.2 0.3 || 0.6 
1 0.3 0 0.1 0.4 


Marginal de Xs 04 0.2 0.4 
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b) Dado que Y; = 1, temos 


x 1 2 3 
Pr (X; = z|Ys=1) 2 0 | 

c) 
Pr(X5;> 2) = 0.6 
Pr(Ys=0 e X522) = 05 
Bisi = = 


d) Não, pois, Pr (Xs = 2 | Y5 = 1 ) = 0 # Pr (X; = 2) = 20%, por exemplo. 
e) Calcule o valor de Z5 em cada uma das “células” acima. Eles variam de Z5 = 1 (quando X5 = 2 e Y; = 1) 
até Zs = 6 (para (X5, Y5) = (3,0)). 


z E 23a 5 6 
Pr(Z25=2) 0.3 0.1 0 0.2 0.1 0.3 


ou seja, 
ž 1 2 4 5 6 
Pr(Z25=2) 0.3 01 02 01 03 
Ex. 6 a) 
Xe\Ys 1 2 3 4 5 6 
1 1 1 1 t a 
1 err re 
2 B B2 2 2 12 
b) 
x 0 1 
Pr(X6 =a = 1) 5 5 
c) 
£ 0 1 
Pr (X6 = 2|Y < 4) - - 


d) Sim. Note como Pr(X6 = i; Ys = j) = Pr (X6 = i) Pr (Ys = j) para todo i € {0,1} eje(1,2,3,4,5,6). 
e) Calculando o valor de Zę em cada célula: 


0 123456 
= 6 il, 1 1 1 1 1 
Pr(Z%=2) 5 B B B BBDD 


Ex. 7 a) Há 25 pares possíveis. Monte a tabela com todas as opções e veja os valores de Xy e Yy em cada opção. 


Yr] X> -2 -1 0 1 2 
-2 0.04 0 0 0 0 
-1 0.08 0.04 0 0 0 
0 0.08 0.08 0.04 0 0 
1 0.08 0.08 0.08 0.04 O 
2 0.08 0.08 0.08 0.08 0.04 
b) Somando por colunas, temos a distribuição marginal de X7 
x -2 -1 0 1 2 


Pr(X; =x) 0.36 0.28 0.20 0.12 0.04 
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c) Note que Pr(Y, = 0) = 0.08 + 0.08 + 0.04 = 0.2. Dividindo aquela linha por este valor, encontramos na 
distribuição condicional pedida: 


z -2 1 0 1 2 
Pr(X=2|Y=0) 0.40 0.40 0.20 0.00 0.00 


d) 
Pr(X;<0eW=+1) = (0.08) (4) + (0.04) = 0.36 
Pr (Y7 = +1) = Pf (Y7 = 1) + Pr (17 = —1) = 0.40 
z A 0w 
Pr(Xr <0] (%) =1) = ao 0% 
e) 
z O 1 2 3 4 


Pr(Yz;— X;=2) 0.20 0.82 0.24 0.16 0.08 


Ex. 8 A distribuição conjunta (com as marginais nas margens) é: 


M| m> 1 2 3 4 5 6 Marginal de M 
1 + 0 0 0 0 0 & 
$o i Ei 
2 2 o ee AD à 
» Pa Ea 
; EAD gg 
4 yo 3 36 y A 0 3 
ó s p 30 30 33 0 p 
9 E 
Marginal dem q aq 36 36 36 36 | 


; ; zo é ; ~o 2 z1). 
O diagrama de dispersão é algo assim (cruzes são 5, quadrados são sz): 


61+ + + + + m 
is ls F + + [m] 

44+ + + zi 
M 

34+ + o 

21+ i 

1, T T m T T T 

1 2 3 m 4 5 6 


Ex. 9 Basta notar que os eventos X € (a,b) e X € (-00,a) são mutuamente excludentes e sua união é (—o0, b]. 
Então 


Pr(a< X <b)+Pr(X <a)=Pr(X <b) 


como queríamos demonstrar. 


Ex. 10 Este exige criatividade. Em primeiro lugar, convença-se de que o mínimo e o máximo são iguais se, e 
somente se, os dois números são iguais, isto é: 


M=m=aSX=Y-a 


Segundo, pelo menos um dentre máximo e mínimo é a se, e somente se, pelo menos um dos X eY é a: 
(M=aoum=)+<>(X=aouY=a) 


A parte difícil está nas linhas de cima, leia-as com calma. Depois, é só calcular a probabilidade deste último 
evento (que pode ser escrita de dois jeitos): 


Pr(M =aoum=a)=Pr(X=aouY=a) 
Use a lei da adição dos dois lados: 


Pr(M=9)+Pr(m=a0)-Pr(M=m=9)=Pr(X=9)+Pr(Y=a)-Pr(X=Y=a) 


Mas os eventos dentro das probabilidades subtraídas são idênticos! Corte-os: 
Pr(M =a)+Pr(m =a) =Pr(X =a)+Pr(Y =a) 
como queríamos demonstrar. 


Ex. 11 Faça cada caso no braço. A tabela a seguir mostra cada caso de n e a distribuição correspondente de X 
(colocamos cada linha no mesmo denominador): 


Pr(X=0) Pr(X=1) Pr(X=2) Pr(X=3) Pr(X=5) Pr(X=5) 


n=1: 7 3 
E afeta T 5 1 
q Í i i 
a È ÉS 8 2 1 
res as 5 1 16 5 Es 
j 32 32 32 2 32 32 


O padrão parece ser: numeradores são números binomais; denominadores são potências de 2. Parece que 


() os n! d 
oo klnk) 


Pr(X = k) 
Você consegue justificar isto? 
a) A resposta final será dada no próximo capítulo: 


n 


Pr(X =k) = o) -p 


Ex. 12 Se a primeira cara foi no lançamento g, então tivemos g — 1 coroas (cada uma tem probabilidade 1 — p 
de acontecer) e, em seguida, uma cara (probabilidade p). Esta seqüência de coroas cara tem probabilidade: 


Pr (G =g) = (1 — p)°™* p 
Ex. 13 Quartis de Xı em 0, 1 e 1; quartis de Xə em 1, 1 e 2; quartis de X3 em 3, 3 e4: 


q EE q J | 
—— 
= 
0.8] 0.87 0.8 
— 
0.67 0.67] 0.67] Å; 
0.4] 0.47 0.4] 
=== 
0.27 002 — 0.27 === 
==, 

— T T 1 o T T T 1 a T T T 1 
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Quartis de X4 em 2, [2,3] e 3; quartis de X5 em 1,2 e 3; 


CD 
0.8 0.8 
TT 
0.4 0.4 — 
0.2 0.2 
e i i i ni i i i i 
-1 1 2 x 3 4 5 -1 1 2 g 3 4 5 


Ex. 14 Tínhamos, para g > 0, 


Pr (G = g) = (1 — p) p 


Portanto, para n E N positivo, 


n 


F(n)= 1- p)™p 


g=1 


que é a soma dos termos de uma P.G. de razão (1 — p). Assim: 


=p)" =i n—1 
n= p =1-(1-»p 
Fin) =p os =1-(1-9) 
Seu g-quantil satisfaz: 
F(n) = i=- are 


(=p "aisge 
(n-—1)ln(1-—p)<ln(1-q) € 

ln (1 -— q) In(1— q) 
“In(1-p) TiS ln (1 — p) 


-e 


In (1 -— p) 


ln(1—q) 
ln(1—p) 


n(1-q4) q h(1-4q), 
Co hiato *? 


t F 


n — 


Isto é, o q-quantil será 


onde |x| representa a parte inteira de x. Se por acaso for inteiro, então o quantil será o intervalo fechado 


11 


Ex. 15 Qualquer variável aleatória cuja função acumulada passe direto de < 0.25 para > 0.75 serve. Para 
exagerar de vez, seja X = 5 com 100% de chance — todos os quartis de X são 5. 


Ex. 16 Note como a distribuição de X4 é a distribuição de X6 + 2, e portanto suas variâncias são iguais: 


i 1 2 3 4 5 6 7 
8 — 12 — 16 S é — —4 =. 
E (Xi) &=0.8 R=12 no 8=25 2 7=05  =-08 
E (X?) 5 = 1.0667 2 Ea =10.88 #=6.5 A =48 5=0.5 2 
Var(X;) &=04267  5=056 Z 0.64  4=025 5=08  4=025 S=136 
o (Xi) T = 0.6532 «Já = 0.7483 108 3505 2⁄5 — 0.8944 3=05 Er = 1.1662 
DM(X;) É = 0.5333 = 0.6 So = 0.65536 5=05 2=0.8 5=05 4# = 0.976 
Ex. 17 
E(X) = Var(X) +(E(X))? =7+25=32 
E(X? +2X +5) = E(X?°)+2E(X)+ E (5) =32+10+5= 47 
Var (2X +5) = 2Var(X)= 28 


Ex. 18 E(Z)=0 e Var (Z)=1. 


Ex. 19 a) Jogo A: E (X) = $50 mil; Var (X) = 2.5 x 10º (8)2; o (X) = $50 mil. 

Jogo B: E (X) = $45 milhões; Var (X) = 3.025 x 1015 ($)°; o (X) = $55 milhões. 

b) Esta resposta é pessoal, mas eu prefiro o jogo A pois não tenho como pagar $10 milhões nunca (bom, partindo 
do pressuposto que serei forçado a pagar até meu último centavo!). 

c) Aí eu arrisco o jogo B. A chance de eu sair no prejuízo é tão pequena, que eu resolvo arriscar (para ser exato, 
aprenderemos mais tarde a calcular a chance de sair no prejuízo no jogo B; a chance é de 1.66 x 10718, isto é, 


0.000000000000000166%). 


Ex. 20 a) E (X) = $3 = = —$0.05263; Var (X) = Eb = 0.99723 ($)? eo(X)= = $0.9986. 

b) pia seria uma péssima idéia. Você ganha $0 com $% de chance, e perde $2 com & É de chance. O valor esperado 
é > = $ — 0.10526, a variância é 0.19945 ($)? eo aE parto é $0.4466. 

c) O lucro esperado é o mesmo de apostar no vermelho: -4 = —$0.05263. Mas esta aposta é mais arriscada, e 


sua variância é maior: 33.2078 (8)? ou desvio-padrão de $5.7626. 
d) Para a letra a, temos 


E(X) = —L = —$0.02703; Var (X) = SS = 0.9993 (8)? ; o (X) = = $0.999634 7 


37 , 1369 


Para a letra b, a idéia ainda é bem ruim: 


E(X) = -2 = —$0.05405; Var (X) = 0.20760 ($)? ; o (X) = $0.45564 


Enfim, para a letra (c), temos 


E(X) = -5 = —$0.02703; Var (X) = 34.08035 ($)? e ø (X) = $5.8378 


an 0 1 2 
p(x) (0.2) + (0.3) (0.6) + (0.5) (0.6)? = 56% (0.3) (0.4) + 2 (0.5) (0.4) (0.6) = 36% (0.5) (0.4)? = 8% 


b) 
E (X) = 0.52 vendas; E (X?) = 0.68 vendas”; Var (X) = 0.4096 vendas”; o (X) = 0.64 vendas 
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Ex. 22 a)S=(KKK,KKC,KCK,CKK,KCC,CKC,CCK,CCC! (espaço egiiiprovável) 
b) Primeiro note os valores de X em cada caso acima. Respectivamente, os valores de X são 1, 2, 3, 2, 2, 3,2 e 
1. Assim, a função de probabilidade de X é 


x 1 2 8 
pa) 3 3 a 
Portanto 5 
E(X)=2;E (X?) =7= 4.5; Var(X) = 0.5 


Ex. 23 Se acreditar 
E (ganho) = ap — b (1 — p) 
Se não acreditar 
E (ganho) = —cp 


O valor esperado do ganho seria maior no primeiro caso sempre que 


ap — b (1 — p) > —cp 


ou seja, se e somente se, 


b 
a+b+c 
A idéia de Pascal era que a e c eram muito grandes, enquanto b era “pequeno”, e portanto valeria a pena acreditar 
em Deus. Note que isto não é um argumento que prova que Deus existe — é apenas um argumento para acreditar 
em Deus! Também note que o argumento nada diz sobre as pessoas que acreditam em Deus apenas para aumentar 
o valor esperado de seu ganho (será que o valor de a mudaria neste caso?). 


p> 


Ex. 24 Seja a o número de tortas a serem levadas e Y o número de tortas vendidas. Então 


y= X, seX <a 
-~ \ a, caso X >a 


O lucro será 
R = 50Y — 20a 


Segue abaixo a distribuição de Y para cada caso, seu valor esperado e E (L) = 50E (Y) — 20a: 


aY 0 1 2 3 E(Y) E(D) 
0 1 0 0 0 0 $0 

1 02 08 0 0 08 $20 

2 02 0.3 05 0 13 $2 

3 02 03 03 0.2 15 $15 


Para maximizar E (L), devemos levar 2 tortas por dia (e esperamos então $25 de lucro por dia, na média). 


Ex. 25 
F€) = E ((X -0?) = E (P - 2X + E (X?)) =? - 2E (X)t+ E (X?) 


que é uma função quadrática em t com coeficiente 1 em t? (parábola voltada para cima). O mínimo será atingido 
quando 

b _2E(X) 
2a 2 


t= 


= E(X) 


e, neste caso, este mínimo será 


HE (X)) = E ((X - E (X)}?) = Var (xX) 
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Ex. 26 Como X eY são independentes: 


E(Z) E(oXx+(1-)Y)=aE(N)+(I- VEM) =au+t(lI-a)u=u 
Var(Z) = Var(0X0)+Var((1-0)Y) = a2Var(X) +(1- a)? Var (Y) = (o? 


cujo valor mínimo se dá quando 


co -203 00 03. Var (Y) 
— 2(@ +0?) o +0} Var(X)+Var(Y) 


Fazendo muitas contas, a variância de Z para este a será: 


2.2 
0105 


Var (Z) = 
oi +o? 


Por exemplo, se as variâncias forem iguais, então a = 5 e fazemos simplesmente a média de X e Y. Neste caso, 


2 
Var(Z) = 4! Se X for exata (isto é, cı = 0), use a = 1, isto é, use Z = X e ignore Y. Se Y for exata, use 
a = 0, fazendo Z =Y e ignorando X. 


Ex. 27 
ro = ue Am 
n 2n 9 
2 2 2 
Bo) = E ct des e Das, 
n 6n 6 
Var(X) = E(X?) - (EX) -= Č 
E o “1 
Ex. 28 
Ex. 29 
1 4 r 
a) E(X) = ș(4)- £ (1) =0; Var(X;) = 4pontos 


Ex 


b) E (Total) E (X1) +... + E (Xs0) = 0; Var ( Total) = Var (X1) +... + Var (Xs0) = 320 pontos? 


. 30 Em ambos os jogos, E (prêmio) = $350, mas no primeiro caso Var (prêmio) = == = 291.6667 ($)? 


enquanto no segundo caso Var (prêmio) = 29166.67 ($)? (cem vezes maior!). A preferência é pessoal — se você 


gos 


ta de arriscar para tentar ganhar até 8600, vá com a segunda opção. Se você quiser garantir seus $350, fique 


com a primeira. 


Ex 
é O 
um 


. 31 Seja p o prêmio por sorteio. Em ambos os casos, E (total) = 0.1p. Só que, no primeiro caso, a variância 
.09p? e no segundo é um tanto maior: 0.099p2. Ou seja, se você prefere garantir o prêmio, compre tudo de 
a vez; se você topa arriscar um pouco mais (e, quem sabe, ganhar mais de um prêmio), compre um de cada 


vez. 


Ex 


.32 E(S)=4E(X)=14 eVar(S)=4Var(X) = Ž. 


Ex. 33 E(X)=E(X)=35eVar(X) = Var(X) z, 
Ex. 34 
E(S) = np; Var (S) = no? 
2 
E > o 
E(X) = m Var (X)= ma 
Ex. 35 E(X) = 50 e Var(X) = 25. 
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Ex. 36 E(L)=-T eVar(L) = 8X. 


Ex. 37 a) E(X)=5(0+2)=1 b) E(X)=G(3+1+14+1+0+0)=1 

Ex. 38 a) Pr(X, = Rec =0)=1-1. Então E(X;) = À. 

b) Note que X = Xı + Xə +... + Xn Então E (X) = E (X1) + E (X2) +... +E (Xn) =nż =1. 
Ex. 39 a) E (L) = Ż — 3 = —# = —$0.20 


b) Para 2 bolas, E (L) = —$0.40; para 3 bolas, E (L) = —$0.60; para 4 bolas, E (L) = —$0.80. Enfim, retirando 
todas as bolas teremos L = —$1 e, portanto, E (L) = —81. 
c) Faça uma árvore. Os caminhos, suas probabilidades e os valores de L serão: 


Caminho BBBPP BBPBP BBPP BPBBP BPBP BPP P 
Probabilidade 5544=01 5555=01 255501 $555=01 3555=01 555=01 &=04 
Lucro —1 —1 0 —1 0 +1 +1 


Assim, E (L) = —0.3 + 0.5 = $0.20 (positivo!). 


Ex. 40 Como na demonstração da desigualdade de Chebyshev, usemos P = (u— ko, u + ko) Para que a igual- 
dade valha na desigualdade de Chebyshev, devemos ter 


> e=p plo) = 0 


SEP 
X (@- p?p) = ko YX pha) 
cg P céP 


Assim, X pode assumir apenas o valor u em P, e apenas os valores u — ko eu + ko fora de P. Em outras 
palavras, tentaremos uma função de probabilidade do tipo: 


z u—ko pu L+ ko 
p(x) p 1-p-q4 q 


Mas então 


E(X) =p(u-— ko) + (1-p-q)u +q (u+ ko) = u+ ko (q -— p) 
Como devemos ter E (X) = u, concluímos que p = q. Nossa distribuição fica assim: 
x u—ko u u+ ko 
p(z) p 1-2p p 
Agora 
Var (X) = p (ko)? +0 + p (ko)? = 2pk2o? 


2, concluímos que p = 5. Enfim, chegamos ao exemplo pedido! 


Como devemos ter Var (X) = o 


i u—ko pu L+ ko 
p(z) zz l-b 3 


E 
De fato, note que Pr (|X — u| > ko) = Pr (X = u — ko) + Pr (X = u + ko) = 3, como desejávamos. 
Ex. 41 Pela desigualdade de Chebyshev, 
1 
Pr (|X — u| < ko) > 1- = 7 


ou seja, neste caso, 


1 
Pr(IX|<k)>1- 5 


Para garantir que o lado direito seja pelo menos 99%, basta tomar 1 — 7 > 99%, isto é, k > 10. Ou seja, k = 10 
é suficiente. Note que o < do enunciado não atrapalha, pois 


1 
Pr (|X| < 10) > Pr (|X| < 10) > 1- 5 = 99% 


como desejávamos. 
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Ex. 42 Pela desigualdade de Chebyshev 
1 
Pr (|X -5| < 3k) > l-73 
Queremos garantir que o lado direito é pelo menos 75%. Para tanto, basta garantir que 


1 
I-p2Dhek22 


Ou seja, tome k = 2 e temos 
Pr (|X = 5| < 6) > 75% 


isto é, devemos tomar a = 6. 
Ex. 43 Sejam Dı e Də os dois dados. Então S = Dı + Də e D = D; — Ds, portanto 
Cov (S, D) = Cov (Dı + Ds, Dı = Də) = Cov (DiDi) — Cov (D2, D2) = Var (Dı) — Var (D2) =) 


No entanto, é fácil ver que S e D não são independentes. Por exemplo, em geral, não é verdade que D = 0; mas, 
dado que S = 12 sabemos com certeza que ambos os dados rolaram 6 e, portanto, D = 0! Isto é: 


Pr(D =0| S= 12) = 100% £ Pr (D = 0) 


Ex. 44 


E (2X — 3Y) 
Var (2X — 3Y) 
Cov (2X — 3Y, X +Y) 


2E (X) -3E (Y) = —4 
4Var (X) +9Var (Y) — 12Cov (X,Y) = 29 
2Var (X) — 3Var (Y) — Cov (X,Y) = 2 


Ex. 45 A distribuição de m e M está no exercício 8. Daquela tabela, tiramos que: 


E(m+M) = E(Dı+D:)=7 
2555 
Var (m) Var (M) 1296 97145 
4 
49 91161 1225 
M) = E(mM)- E E(M) = — — — — = —— = 0.94522 
Se m (mi a a S 
Var(m+ M) = Var(Dı + Do) = Var (Dı) + Var (Do) = E = 5.8333 
Cov(m,M) e 35 
p(m,M) = = = = 0.479452 
o(mo(M) %5 73 


2.1 Exercícios de Provas 


Ex. 46 Faça uma árvore. Sejam X a primeira jogada vencedora e seja L o lucro. A distribuição de X éa 
seguinte (com valores de L calculados): 


T 1 2 3 4 5 Perda total 
L 1 —1+2=1 -1-244=1 -1-2-448=1 —1—2—4-8+16=1 -1-2-4-8-16= 
Pr(X=2) 4 i 5 15 3 3 


Então a distribuição de L é simplesmente 


e, portanto, E (L) = = = = = 0. 
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Ex. 47 Temos E(X) = $1.2 enquanto E (Y) = E (Z) = $1.6. Para escolher dentre estes dois últimos, calculamos 
E(Y?) = 82>Var(Y)=8.2- (1.6) = 5.64 
E(Z?) = 34>Var(Z2)=34-(1.6) = 0.84 

Portanto, dos que têm maior valor esperado, Z é o menos arriscado e deveria ser escolhido. 


Ex. 48 Um espaço amostral egiiiprovável é S = (KKK,KKC,KCK,CKK,KCC,CKC,CCK,CCC). a) Cal- 
culando os valores de X e Y em cada caso e colocando tudo numa tabela, temos a distribuição conjunta de X e 
Y; 


Y\X 0 1 2 Total 
0 1 1 Q /d 
1 i2 a Í 
8 
Total 1 3 4 1 


b) A marginal de X é a última linha da tabela acima. Dado que Y = 1, a condicional de X é idêntica à marginal 
-= $, 5 e + No entanto, X e Y não são independentes - basta notar que Pr (X =0Y = 2) = 0 # Pr (X = 0) = L. 


c) 


E(XY) = OFETOFETO RETOR: 
Cov(X,Y) = S-1=5 


Ex. 49 a) Somando por colunas, temos a distribuição marginal de X 


T -2 -1 0 1 2 
Pr(X =x) 0.36 0.28 0.20 0.12 0.04 


Assim, E (X) = —0.72— 0.28+0 + 0.12+ 0.08 = —0.8 e Med (X) = —1 (pois Pr(X < —1) = 0.36 < 0.5 < 0.64 = 
Pr(X < —1)). 

b) Note que Pr(Y = 0) = 0.08 + 0.08 + 0.04 = 0.2. Dividindo aquela linha por este valor, encontramos na 
distribuição condicional pedida: 


z -2 sf 0 q 2 
Pr(X=2|Y=0) 0.40 0.40 0.20 0.00 0.00 


c) Note que Y — X = k é uma das diagonais da tabela, isto é, Pr (Z = k) será um somatório de probabilidades em 
uma das diagonais. Usando este método, é fácil ver que Pr (Z = 0) = 0.04 x 5 = 0.20, Pr (Z = —1) = 0.08 * 4 = 
0.32, e assim por diante. Resumindo 

z -4 -3 -2 -1 0 

Pr(Z =z) 0.08 0.16 0.24 0.82 0.20 


Daqui, temos E (Z) = —0.32 — 0.48 — 0.48 — 0.32 + 0 = —1.6. 


Ex. 50 a) Lendo as colunas de cima para baixo e ignorando as entradas onde XY = 0 temos: 


E (XY) = 4 (0.04) + 2 (0.08) — 2 (0.08) — 4 (0.08) + 1 (0.04) 
— 1 (0.08) — 2 (0.08) + 1 (0.04) + 2 (0.08) + 4 (0.04) = 0 
Portanto, 


Cov(X,Y) = E (XY) — E (X) E (Y) = 0.64 


Cov (X,Y) 064 8 47059 


= or)” 3 17 
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b) Temos 
Var (Y — X) = Var (Y) + Var (X) — 2Cov (X,Y ) = 1.36 + 1.36 — 2 (0.64) = 1.44 


c) Temos 
Cov (Y — X,Y + X) = Cov (Y, Y) — Cov (X, X) = Var (Y) — Var (X) =0 


d) Não. Note que Pr(X +Y = 0) = 0.20, mas Pr (X +Y =0 |Y — X = 4) = 100% (pois teria de ser Y = 2 e 
X = -2). 


Ex. 51 a) As distribuições marginais estão na tabela acima. Da tabela, temos 


0.17 +0.04 +0.11 +0.16 _ 0.48 


MASIY SS= 0.30 + 0.30 0.60 


= 80% 


b) Temos 


E(X) = —0.30 + 0 + 0.30 = 0 
E (Y) = —0.30 + 0 + 0.30 = 0 
E (XY) = 0.03 + 0.17 — 0.09 — 0.11 = 0 


Assim, Cov (X,Y) = E(XY)- E(X)E(Y)=0. No entanto, X e Y não são independentes, já que 


Pr (X =Y = 0) = 0.20 # (0.4)? = Pr (X = 0) Pr (Y = 0) 


c) Temos que 


Cov (X,3X + 4Y) = 3Cov (X, X) + 4Cov (X,Y) = 3Var (X) 
Var (3X + 4Y) = 9Var (X) + 16Var (Y) +24Cov(X,Y) = 25Var (X) 


já que X e Y têm a mesma distribuição, portanto Var (X) = Var (Y). Enfim 
Cov(X,3X +4Y) 3Var (X) 3 


Nar (X) Var 6X 147) Var(X) /2Var (X) 5 


Ex. 52 a) A soma das probabilidades tem de ser 1, isto é 


p(X,3X +4Y) = =0.6 


9 


9 
1 
L e a E 


já que aquela soma é telescópica. 
b) A distribuição acumulada é simplesmente 


(In (i+ 1) — Ini) = meto 


novamente, pela soma telescópica. A mediana será o primeiro valor (inteiro) de k tal que esta soma passa de > 
a In(k+1 1 In 10 
nery >5=n(k+1)> Sobre =10/2=V10>h>vVI0-1=2.162 
n 
Assim, Med (X) = 3. 
c) Seja x o número procurado. Se a distribuição de Benford também se aplicar para as cidades entre 1000 
e 10000 habitantes (e ignorando a remotíssima probabilidade de que alguma cidade tenha exatamente 6000 ou 


18 CHAPTER 2. RESPOSTAS DOS EXERCÍCIOS DO CAPÍTULO 2 


10000 habitantes), então a proporção esperada de cidades entre 5000 e 6000 habitantes (do universo de cidades 
de 5000 a 10000) deve ser aproximadamente 


x Pr(X = 5) 
1309 P". 5S X<) = GLX 


F(5)—-F(4) c(ln6-ln5) n1.2 
= = SEA = 0.26303 
F(9)—- F(4) c(mnl0-ln5) In 2 


Portanto, x = 344.30627, isto é, esperamos aproximadamente 344 municípios com 5000 a 6000 habitantes. 
Nota: Note como este número é muito diferente de 1309 = 261.8 que seria o número esperado caso a distribuição 
do primeiro dígito fosse uniforme. O número real, tirado dos dados do IBGE, é 341 municípios entre 5000 e 6000 
habitantes. 


Chapter 3 


Respostas dos Exercícios do Capítulo 


Ex. 1 Seja X o número de usinas que falham este ano. X ~ Bin (100,0.001). Então: 
Pr(X > 1) = 1-— Pr (X = 0) = 1 — (0.999)™ = 9.52% 


Ex. 2 Seja X o número de “seis”. Então X ~ Bin (30, E) e 


5 25 
Pr(X = 5) = BinomialDen (5.30 z) = a (5) (5) = 19.21% 


Ex. 3 Seja X o número de flechas no alvo. Então X ~ Bin (5,0.2). Assim: 


Pr(X =4) BinomialDen (4,5, 0.2) = É (0.2)* (0.8) = 0.64% 


Pr(X>2) = 1-Pr(X<1)=1-—BinomialDist (1,5,0.2) = 26.27% 


Ex. 4 Seja X o número de parafusos defeituosos dentre os 5. Então X ~ Bin (5,0.1). 


Pr(X=0) = BinomialDen (0,5,0.1) = G (0.1)º (0.9)? = 59.049% 
Pr(X=1) = BinomialDen (1,5,0.1) = a (0.1)! (0.9) = 32.805% 
Pr(X=2) = BinomialDen (2,5, 0.1) = (3) (0.1)? (0.9)? = 7.29% 
Pr(X <2) = 59.049% + 32.805% + 7.29% = 99.144% 


Ex. 5 Seja X; o número de sets que eu ganho em i sets jogados. Então X; ~ Bin (i,0.3). Assim 


Pr(X3 > 2) = 1-— BinomialDist (1,3, 0.3) = 21.6% 
Pr(X; > 3) = 1-— BinomialDist (2, 5, 0.3) = 16.308% 
Pr(X7> 5) = 1-— BinomialDist (3, 7,0.3) = 12.604% 


Note como a chance de eu ganhar o jogo vai diminuindo à medida que aumentamos o número de sets. 
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Ex. 6 Seja X o número de gols. Então X ~ Bin (4,0.3). Assim 


Pr(X = 0) = BinomialDen (0,4,0.3) a ) (0.3)º (0.7)! = 24.01% 
4 

Pr(X = 1) = BinomialDen (1, 4, 0.3) o] (0.3)! (0.7)? = 41.16% 
4 

Pr(X =2) = BinomialDen (2, 4, 0.3) = (2) (0.3)? (0.7)? = 26.46% 

Pr(X =3) = BinomialDen (3, 4, 0.3) = ) (0.3)? (0.7)! = 7.56% 

Pr(X=4) = BinomialDen (4, 4, 0.3) = (0.3) = 0.81% 

Ex. 7 (x) e É 
E(X) = np = 30 
f Var (X) = npq = 20 t= g Pg ái 


Ex. 8 Cada passageiro pode aparecer (sucesso, p = 0.96) ou não (falha, q = 0.04). Se supusermos que os 
passageiros vêm ou não independentemente uns dos outros, então o número X de passageiros que vêm satisfaz 
X ~ Bin (100,0.96). A pergunta consiste em descobrir Pr (X < 98), a saber 


Pr (X < 98) = BinomialDist (98, 100, 0.96) = 91.28% 


ou, no braço 
1 
Pr (X < 98) = 1 — Pr (X = 99) — Pr (X = 100) = 1 — ( A (0.96)°° (0.04)! — (0.96)"º = 91.28% 


Ex. 9 a) Seja X o número de questões que ele acerta. Então X ~ Bin (50,0.5). Então: 


Pr (Nota > 8,0) = Pr(X > 40) = 1 — BinomialDist (39, 50, 0.5) = 0.001193% 
Pr (Nota > 6,0) = Pr(X > 30) = 1 — BinomialDist (29, 50, 0.5) = 0.101319% 


b) Seja Y o número de estudantes que, escolhendo ao acaso, conseguem 80% ou mais. Cada estudante é uma 
“prova” com probabilidade 0.001193% de conseguir “sucesso”. Então Y ~ Bin (100, 1.193 x 1076) e portanto 


Pr (Y > 1) = 1 — Pr (Y = 0) = 1 — (1 — 0.00001193)"° = 0.1192% 


ou seja, mesmo com 100 estudantes, tirar 8,0 ou mais por acaso é bem raro. Algum estudante tirar 6,0 ou mais 
ao acaso é mais fácil, mas ainda improvável —- se Z é o número de estudantes dentre 100 que tira 6,0 ou mais, 
então Z ~ Bin (100,0.00101319): 


Pr(Z>1)=1- (1-0.00101319)!º = 9.64% 
c) Agora fica ainda mais difícil se dar bem por acaso. De fato, X ~ Bin (50,0.2). Então: 


Pr(X >40) = 1-— BinomialDist (39,50,0.2) = 1.2908 x 107*º (virtualmente zero) 
Pr(X >30) = 1-— BinomialDist (29,50,0.2) = 6.9367 x 107!º (virtualmente zero) 


Note que até o Excel terá dificuldade em calcular números tão pequenos! Para os outros itens, temos Y ~ 
Bin (100,1.291 x 10719) e Z ~ Bin (100,6.9367 x 10710), portanto: 


Pr(Y>1) = 1-(1-1291x101)w1- (11.291 x 10-17) = 1.291 x 107" 
Pr(Z>1) = 1-(1-6.9367x 10-10) w1- (1 — 6.9367 x 1078) = 6.9367 x 1078 
(usamos a aproximação da série binomial: (1 — 7 = 1— 100x quando x é pequeno) ou seja, se você espera 


tirar nota boa no vestibular chutando tudo, vai ter de esperar muito. 
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Ex. 10 Seja X o número de cartas que o (parajnormal acerta. Então X ~ Bin (10,0.2). Assim 
Pr(X > 8) = 1 — BinomialDist (8, 10, 0.2) = 7.79264 x 1075 


ou seja, seria muito improvável que você conseguisse acertar 8 ou mais por acaso. Porém, testando 1000 pessoas, 
cada uma tem 7.79264 x 107º de probabilidade de sucesso. Assim, o número de pessoas que conseguirá acertar 8 
ou mais é Y onde X ~ Bin (1000, 7.79264 x 1075) e então 


Pr (Y > 0) = 1 — Pr (Y = 0) = 1 — (1 — 7.79264 x 1055) 08 


= 7.497% 


ou seja, este evento raríssimo não é mais tão raro com 1000 pessoas. Só para comparar, com 10000 pessoas 
testadas e Z que conseguiriam o feito notável de adivinhar 8 ou mais cartas, temos: 


) 10000 


Pr (Z > 0) = 1 -— (1 — 7.79264 x 107º = 54.127% 


ou seja, teste 10000 pessoas deste jeito e eu aposto que você arrumar pelo menos uma pessoa que adivinhará as 8 
ou mais cartas. Aí você pode ir ao Fantástico e dizer que esta pessoa notável tinha 7.79264 x 1075 de chance de 
conseguir fazê-lo por acaso, e você enganará a todos convencendo-os que esta pessoa é paranormal. 


Ex. 11 Seja X o número de vezes em que deu 13. Note que jogamos 50 vezes, e a probabilidade de sucesso a 
cada vez é +. Assim X ~ Bin (50, +). O enunciado esqueceu de mencionar o tamanho das apostas — vamos 
supor $1 por rodada. Lembremos que lucramos $35 a cada sucesso, mas perdemos $1 a cada fracasso. Então: 


L=35X-(50- X) = 36X — 50 
Assim 


36\ 50 
Pr(L > 0) = Pr (36X — 50 > 0) = Pr (x > z) =Pr(X>1)=1-Pr(X=0)=1- (5) = 74.59% 
isto é, 75% das pessoas que adotam esta estratégia saem felizes do cassino, saindo de lá com mais dinheiro do 
que entraram. Porém: 


50 
E (L) = E (36X — 50) = 36E (X) — 50 = 36 (3) — 50 = —$1.35 
ou seja, o lucro esperado é negativo. 
Ex. 12 a) 
BinomialDen (k + 1;n,p) aD gE o n!k! (n — k)! po n-kp 
BinomialDen (k;n,p) (7) pgr “(K+D(n-k-Dnlg k+1q 


b) Sabemos que 
Pr(X =5)  BinomialDen (4 + 1;10,p) 10-4 p 


Pr (X = 4) BinomialDen (4;10,p)  4+11-p 


Como o problema diz que isto é 2, temos 


So. E E a 
51-p ip 3 8 
c) Note que 
-k k+1 k+1 
Pr(X=k+1)>Pr(X =b) = Tê Dio 7 < Ts O al SP a 


Assim, a probabilidade aumenta com k até o valor kmaxim = |np +p], e a partir dali diminui. Em outras 
palavras, a moda de X é np + p|. Nos raros casos em que np+p é um inteiro, há um empate entre k = np+p-—1 
ek+1=np+p. Note como a moda |np + p| está sempre próxima do valor esperado np. 
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Ex. 13 Sendo X o número de acertos, temos X ~ Bin (9, 4). Então 


E 93 27 
E(X) =7 =2.25 e Var(X)=33= j5 


A nota (se for de O a 10) será N = IX, Então 


10E (X) 10? 25 
9 


E(N) = =25 e Var (N) = q Var (X) = 5 


A probabilidade de obter 4 acertos é 


Pr (X = 4) = BinomialDen (s9 1) - a (G | o = 11.68% 
+ 


e, enfim, o número mais provável de acertos é |np + p| = |3 i| = = 2. Só para confirmar 


BinomialDen (1 9, 5) < BinomialDen (2 9, 5) > BinomialDen (3 9, 5) 
0.225 0.300 0.234 


Ex. 14 Seja X o número de tortas de maçã pedidas. Então X ~ Bin (10,0.6), e o número de tortas de chocolate 
vendidas será Y = 10 — X. Os estoques m de tortas de maçã e c de tortas de chocolate devem satisfazer: 


Pr(X<meY<c)> 0.9 
isto é, queremos encontrar números m e c tais que 
Pr(10-c<X<m)>0.95 


Há várias opções para conseguir satisfazer esta desigualdade — por exemplo, colocando c = 10 em = 10 certamente 
serve, mas nos parece custoso demais! Observando a tabela da função acumulada da binomial de parâmetros 
n = 10 ep = 0.6, encontramos uma boa opção para intervalos com pelo menos 95% de probabilidade assim: 


Pr(2< X < 8) = BinomialDist (8; 10, 0.6) — BinomialDist (1; 10, 0.6) = 95.20% 


Note que não adianta aumentar o limite inferior de X para 3 (pois então, mesmo tomando 3 < X < 10, não 
chegamos a 95% de probabilidade) nem adianta diminuir de 8 para 7 (pois Pr (0 < X < 7) = 83.27% é menor que 
95%). Assim, tomaremos 10 — c = 2 e m = 8, isto é, traga 8 tortas de chocolate e 8 de maçã. A probabilidade de 
atender todos os clientes é de 95.20% (mas 6 tortas ficarão para o dia de amanhã). 


Ex. 15 Como ganha quem fizer 10 pontos, podemos fingir que A e B jogam um total de 19 partidas, e quem 
ganhar mais partidas vence a série. Como eles já jogaram 10 partidas (A está vencendo 6 x 4), faltam 9 partidas 
para jogar. Seja X o número de partidas destas 9 que A vencerá. Então 


X ~ Bin(9,0.4) 
O jogo será vencido por B se A só conseguir vencer 3 ou menos (pois já venceu 6). Assim 
Pr (B ganhar série) = Pr (X < 3) = BinomialDist (3; 9, 0.4) = 48.26% 


Ex. 16 Sejam X o número de bolas brancas e Y o número de bolas pretas sacadas. Temos X ~ Bin (5, +). 
Então 


Pr(X =3) BinomialDen (3; 5, 0.3) = (5) (0.3)? (0.7)? = 13.23% 
Pr(X >3) = 1-— BinomialDist (2:5,0.3) = 16.308% 


Pr(X=2eY=2) = Pr(X=2).Pr(Y=2]X=2) 
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Agora, note que, dado que X = 2 (foram exatamente 2 bolas brancas), temos que a distribuição de Y será binomial 
com parâmetros n = 3 (as que restam) e p = è (dentre as bolas que restam). Assim 
Pr( X =2 eY =2) = Pr(X=D.Pr(Y=2/X=9)= 


= BinomialDen (2; 5, 0.3) BinomialDen (2 3, >) = 9.72% 


(note que se X =2 e Y =2, autmaticamente teremos uma bola vermelha). 
Ex. 17 Como X ~ Bin (10,0.05), temos 
Pr (X = 0) = (0.95)!º = 59.87% 


Ex. 18 Se X é o número de sucessos em m experimentos de um processo de Bernoulli, e Y é o número de 
sucessos em outros experimentos independentes (todos com a mesma probabilidade p), então Z = X +Y será o 
número de sucessos nos m +n experimentos. Assim, Z ~ Bin (m +n, p). 

Se você preferir uma demonstração algébrica, vai ter de fazer 


k k 
Pr(Z=k) = > Pr(X=jeY=k-j)=_Pr(X=j)Pr(Y =k- j)= 
j=0 j=0 
E (m n E /m n 
= i pars jp = ( l ( jart E 


j=0 


k 
o k min—k m n E m+n k m+n-k 
= Pq Elo) ( k Dra 


j= 


onde usamos a identidade D (7) (ue) = (r que pode ser provada combinatoriamente: para escolher k 


elementos dentre m + n, escolha j} dentre os m primeiros e k — j dentre os n últimos, e some para todas as 
possibilidades em j. 


Ex. 19 Seja X o número de folhetos recebidos na sua quadra. Então X ~ Bin (10000, 5000) - 


1 1999, 10000 
Pr(X =0) = BinomialDen (o 10000, z5) = (00) = 0.6730% 
1 10000) (1º (1999) 
Pr(X = 5) = BinomialDen (5. 10000, a5) = ( 5 ) (=) (2) = 17.551% 
1 10000) (1º (1999) 
Pr(X = 10) = BinomialDen (10 10000, z) = ( 10 ) (z) (2) = 1.812% 
Mais tarde veremos como simplificar estas contas usando Poisson. 
Ex. 20 Sabemos que T ~ Geom (E) . Então: 
5\ 6 
Pr(T>6) = (5) = 33.49% 
EN 
Pr(T>4) = (5) = 48.23% 
Et sáireo = Et (5/6) E) = 48.23% 
Pr(T>2) (5/6) 6 


Ex. 21 O enunciado devia ter dito que a e b são inteiros positivos. Neste caso: 


Pr(X>a+b) que 
Pr(X >a+b|X>a)- O =q=Pr(X>b) 
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Ex. 22 Seja X o número de tentativas. Então X ~ Geom (0.9). O lucro é L = 100 — 10 (X — 1) = 110 — 10X. 
Então 


1 10 
E(X) = — = — = 1.1111... 
ao 0.9 9 
Pr(X>2) = (01) =1% 
E(L) = E(110-10X) = 110 — 10E (X) = $98.89 
Ex. 23 Seja X o número de tentativas. Então X ~ Geom (0.4) e 
1 
= — =2, 
E(X) E 5 
Pr(X>3) = (0.6)? = 21.6% 
O lucro é dado por 
90, se X =1 
L= 80, se X =2 


95 -5X, se X >3 


Você pode montar uma tabela com a distribuição de L e calcular E (L) usando somatórios. Mais espertamente, 
note que o custo da primeira tentativa é inevitável; seja Y o número de sucessos na PRIMEIRA tentativa — ou 
seja, Y ~ Bin (1,0.4) = Be (0.4). O lucro será de 100, descontados 5 por tentativa, menos 5 extra inevitáveis da 
primeira tentativa e 5 extra da segunda tentativa caso ela exista (isto é, caso Y = 0). Assim: 


L = 100-5X-5-5(1-Y) 
L = 90-5X+5Y 


Portanto 5 
E (L) = E (90 — 5X + 5Y) = 90 — 5E (X) + 5E (Y ) = 90 — zg + 5 (0-4) = 79.5 


Ex. 24 Note que Y = X — 1. Como X € {1,2,3,...}, temos que Y € {0,1,2,...}. A função de probabilidade de 
Y é 


py (k) = Pr (Y = k) = Pr (X =k + 1) = qp para k = 0,1,2, ... 
A esperança e variância são 
1 
E(Y) = Bj-teisi=s 
P P 
q 
Var(Y) = Var(X-D)=Var(X) = 7 
Ex. 25 Veja a seção 3.3.4: seja Y o número de sucessos nos primeiros k — 1 lançamentos e Z o número de 
sucessos no k-ésimo lançamento. Então Y ~ Bin (k — 1,p) e Z ~ Be(p). Note que o r-ésimo sucesso acontece 
no k-ésimo lançamento se, e somente se, Y =r — 1 e Z = 1, isto é 


X=keo(Y=r-1eZ=1) 


Aus 


Como Y e Z são independentes (pois tratam de lançamentos distintos): 


k—1 fis [e A pko 
P(x =4)=Pr(Y =r -1).Pr(Z=1)= (Eos )priat z=] q" 


Enfim, seja X, o número de lançamentos até o primeiro sucesso, Xo o número de lançamentos dali até o segundo 
sucesso (sem contar o lançamento do primeiro, mas contando o segundo), e assim por diante. Então note que 


X=>XM+X +. +Xr 
e cada um dos X; é uma variável com distribuição geométrica de parâmetro p. Então 
E(X) = rE(X)=- 


Var(X) = rVar (X;) = 2 
P 


onde, para a variância, usamos que os X; são independentes entre si. 
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Ex. 26 Seja X o número de campeonatos ganhos pelo Vasco nos próximos 10 anos. Então X ~ Bin (10,0.2) e 
Pr(X > 1) = 1 — BinomialDist (1;10,0.2) = 1 — (0.8)!º — 10 (0.8) (0.2) = 62.42% 
Agora, seja Y o número de campeonatos ganhos nos próximos 5 anos. Então Y ~ Bin (5,0.2) e 
Pr (Y > 2) = 1 — BinomialDist (1;5,2) = 1 — (0.8) — 10 (0.8)! (0.2) = 62.42% 
Enfim, a última pergunta é, de fato, 
Pr(X < 1) = BinomialDist (1; 10, 0.2) = (0.8)º + 10 (0.8)º (0.2) = 37.58% 
Ex. 27 Temos Y = X —r. Como X e(r,r+1,r+2,...) temos Y € (0,1,2,...). A função de probabilidade é 


k = ar 
py (k) =Pr(Y =k)=Pr(X=k+r) ( | Jre 
enquanto a esperança e variância são 

r rq 

E yY == E X — r = — — r = — 

(Y) (X) E p 

Var(Y) = Var(X-r)=Var(X)= na 
P 


Ex. 28 Sejam Y o número de filhos homens dentre os n filhos não-gêmeos (então Y ~ Bin (n,p)) e Z = 1 se os 
gêmeos são homens e O caso contrário. Então 


X=ke(Y=keZ=0)ou(Y=k-2eZ=1) 


Como os eventos dos dois lados do “ou” são disjuntos e Y e Z são independentes: 


Pr(X =k) = Pr(Y=keZ=0)+Pr(Y=k-2eZ=1)= 
= Pr(Y=hWPr(Z=0)+Pr(Y=k-DPr(Z=1)= 


N \ pk n-k n k-2 n=k+2, — 
dra a+ (1º )p q p= 


= pig (G) j ( É o) ) 


De fato, note que X =Y +2Z com Y e Z independentes. Então: 


E(X) = E(YW)+2E(Z) =np+2p= (n+2)p 
Var(X) = Var(YW)+Var(22) = Var(Y) +4Var(Z) = npq + 4pq = (n + 4) pq 
Ex. 29 No exemplo do texto, vimos que, quando X ~ Poi (u), temos 


p(k+I) Pr(X=k+1) x 
plk)  PrX=k) k+l 


ou seja, as probabilidades vão aumentando com k enquanto k +1 < u. No caso, u = 4, e portanto 
p (1) < p (2) < p (3) = p (4) > p (5) > p (6) >... 
ou seja, há duas modas: X = 3 e X = 4. 


Ex. 30 A probabilidade de não haver erro em uma página é 


0.2)? 
pool ) = e702 


0! 


Portanto, a probabilidade de não haver erros em 10 páginas seguidas (independentes) será 


(e72) = e7? = 13.53% 
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Ex. 31 Sendo X o número de clientes que chegam, temos que X ~ Poi(2). A probabilidade de haver clientes 
não atendidos é 


Pr(X>3) = 1-Pr(X=0)-Pr(X=1D)-Pr(X=2)-Pr(X=3)= 
Db ql. da de 19 
= Sana es E = = S E 
= l-e (tata ta)! zaz = 14.29% 


Seja Y o número de clientes atendidos por dia. A distribuição de Y é 


Pr(Y =0) = Pr(X =0)= e° 
Pr(Y =1) = Pr(X =1)= 2e? 
Pr(Y=3 = P(X =0)= De 
Pr (Y =3) Pr(X > 3)=1-— 5e? 


Portanto 


E (Y) = 0 + 2e7? + 4e7? +3 (1 — 5e7?) = 3 — 9e7? = 1.7820 clientes por dia 


Enfim, queremos encontrar o 0.94 quantil da distribuição de Poisson de parâmetro 2, isto é, queremos encontrar 
k tal que 
Pr (X > k) < 0.06, ou seja, Pr (X < k) > 0.94 


Usando uma tabela com a função acumulada de Poisson, encontramos 
Pr (X < 3) = 85.7% < 94% < 94.74% = Pr (X < 4) 
Assim, basta aumentar a capacidade de atendimento para 4 clientes por dia. 


Ex. 32 Seja X o número de ganhadores. A princípio, cada apostador pode ganhar ou não com a mesma probabil- 
idade p = do então X ~ Bin (50 063 080, = Mas fazer os cálculos com estes números é horrível 
até com um computador! Como n é grande e p é pequeno, podemos aproximar por uma distribuição de Poisson: 
X ~ Poi (5006308009) = Poi (1) Então: 


50063080 
Pr(X=0) = e! = 36.79% 
Pr(X=1) = el = 36.79% 
=i 
Pr(X =2) Sr 18.39% 
Ex. 33 Seja X o número de afogamentos num ano para cada 200000 habitantes. É razoável usar X ~ Poi (6). 
Então 
6? 63 
Pr(X>3) = 1-p(0)-p(1)-— p(2)— p (3) = 1 -— eî (1+64 z + 7) = 84.88% 
62 
Pr(X <3) = p(0)+p(D)+p(2)=e* (1+0+ S) = 25e! = 6.197% 


Ex. 34 Como X ~ Poi (0.8) então 
Pr(X=0) = PB = 44.93% 
Pr(X >2) = 1-p(0)-p(1) — p (2) = 4.74% 
Ex. 35 Seja X o número de erros em uma página. Então a probabilidade de uma página não ter erros é 
Pr(X = 0) = 67" = 0.223 


Como há 800 páginas no livro, o número de páginas sem erros é uma variável Y com distribuição Bin (800, 0.223). 
Seu valor esperado será 
E (Y) = 800e7 15 = 178.5 


ou seja, estimamos cerca de 178 páginas sem erros. 
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Ex. 36 Seja X o número de vítimas dentre os 5000 assegurados. Temos X ~ Bin (5000, 0.008%). Como n é 
grande e p é pequeno, preferimos usar a aproximação X ~ Poi ((5000) (0.008) %) = Poi (0.4). Daqui: 


(0.4)? 
2! 


Pr (X > 3) = 1 — p (0) — p (1) — p (2) = 1 — e" h + 0.44 = 0.7926% 


apenas. Um número excessivo assim de acidentes merece uma investigação especial. 


Ex. 37 Seja X o número de acidentes num dia nos 300 km. Como FE (X) = 23%% = 6, usaremos X ~ Poi (6). 
Então 5 
-66° 


Pr(X =5)=e zI 


= 16.06% 


Agora, seja Y o número de acidentes em 250 km. Usaremos Y ~ Poi (5). Agora: 


52 
Pr(Y >3)=1-— e% (1+5+5) = 87.53% 


Ex. 38 Sejam X o número de partículas emitidas. Então X ~ Poi (A). Seja Y o número de partículas detectadas. 
Dado que X =n, Y terá distribuição binomial de parâmetros n e p, isto é: 


Pr(Y =k|X=n)= (ra 


Assim 


Pr(Y=keX=n)=Pr(Y=k|X n Px =) = (tarte 


n! 


Para encontrar a marginal de Y, temos de fazer o somatório das probabilidades acima para n = k,k + 1, k +2, ... 


E InN AO 
Y= = (gates = 


n=k 
ETA cx Ag RM go Rd ja 
- DL = E 
n=k 1=0 
= Lp) ada cap Ap)“ 
k! k! 


que representa uma distribuição de Poisson de parâmetro Ap. 


Ex. 39 Temos que X`Hip (5,2,8). Então para k = 0,1,2: 


ou seja 
5) /3 
Pr(X=0) = eo = 
5) (3 
may - 00.8 
5) (3 
meira - ORI 
Também 
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Ex. 40 Jogando m dezenas, o número de dezenas sorteadas será uma variável aleatória com distribuição Hip (m; 6; 60). 
Então! : 


6 dezenas : E(L)= e 18000000 + E 18000 + ia 240 — 1.5 = —0.921 
6 6 6 

10 dezenas : E(L)= Vl 18000000 al 18000 4 ai 240 — 315 = —233.73 
6 6 6 


15) (45 15) (45 15) (45 
15 dezenas : g (1) = £2 Co) 18000000 (0) 8000 4 G) 54 7507.5 — —5652.93 


(5) (5) (5) 
Para que a aposta básica valesse a pena (por valor esperado), o prêmio x deveria satisfazer: 
Oo, OC DG 
x + 18000 4 
(5) (5) (5) 


Ex. 41 Temos que X ~ Hip (1000, 10000, 100000). Então 


) 540 1.5 = 0 => x = $64 112 190 


10000 
(a o (T) ý 
10000 \ / 90000 \ / 100000 — 1000 
X) = 1 = 89.100891 
ERR) 000 (oro) EN ( 100000 — 1 ) RSRS, 


Ex. 42 A probabilidade de sacarmos k bolas pretas é 


(= (lei) ose 
POC Ho IGOR DUB 


Note que 
p(k+1) K(10-K)!(6-A)!(k- 1)! (10-k)(6—k) 
p(k) (k+ 1)! (9 — k)! (5 — k)!k! (k+1)k 


Assim, a função p (k) é crescente enquanto 


(10 — k) (6 — k) 


60 
A S z 2>k? pré ES Bi 
(E +) >1560-16k:+kº>k tkeks i 3.53 


Isto é 
p (2) < p (3) < p (4) > p (5) > p (6) 


E, portanto, 4 bolas pretas é o mais provável. 


3.1 Exercícios de Provas 

Ex. 43 Seja X o número de componentes que não falham. Então X ~ Bin (5,0.9). Portanto 
Pr(X<2) = p(0)+p(1)+p(2)= 

C) (0.9)º (0.1) + A (0.9)* (0.1)! + (3) (0.9)? (0.1)? = 0.856% 


1 Tecnicamente, isto não está bem correto; quando você ganha a mega-sena com o volante de 10 dezenas, a CEF paga, além do 


prêmio da sena, várias quinas e quadras, de maneira que uma aposta de 10 dezenas é completamente equivalente a (o) apostas de 6. 


Assim, os valores E (L) = (19) (-0.921) = —193.41 para 10 dezenas e E (L) = (19) (—0.921) = —4609.60 para 15 dezenas estão mais 
próximos da realidade. 
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Ex. 44 Temos n l 
p(k+1) (prato kq 
pA Eppe kor 
Portanto, a função de probabilidade é crescente enquanto 
k 1 
Pe pau 
k—r p 


Neste caso, a função é crescente enquanto k < e = 7.5, isto é 
e < p(6) < p(7) < p (8) > p (9) >... 


Ou seja, a moda é X = 8. Enfim, seja Y o número de sucessos nos 9 primeiros experimentos. Então Y ~ 
Bin (9,0.8) e 


Pr(X <10) = Pr(Y > 6) =Pr(Y = 6) + Pr (Y = 7) + Pr (Y =8) + Pr (Y = 9) = 
= BinomialDist (9; 9, 0.8) — BinomialDist (6; 9, 0.8) = 73.82% 


Ex. 45 Para que X = k sejam sacadas, devemos ter p—1 bolas pretas nas primeiras k—1 extrações (probabilidade 


dada por uma hipergeométrica) e, enfim, a última bola preta na próxima retirada (probabilidade e] pois ainda 


háb+p-—k+1 bolas na urna). Em suma, para k = p, p+1,..., b+ p, temos: 


(C) brp-R+1 *Pb+olk-) 


Pr(X =k) = 


Ex. 46 Seja X o número de lançamentos até o sucesso de tirar um 1 ou um 6. Então X ~ Geom (3). Note que 
L = 40 — 15X (pois os $10 extra da primeira rodada são inevitáveis e podem ser debitados do prêmio inevitável 
de 850). Então: 


IN A 
Pr(L<0) = Pr(40- 15X <0)=Pr(x>2)= (5) =5 
E(L) = 40-15E(X)=40- du 
- z a 


Ex. 47 Se X é o número de pedidos em um mês, então X ~ Poi ((0.2) (30)). Assim, E (X) = 6. 
Se Y é o número de pedidos em uma semana, então Y ~ Poi (1.4). Então 


Pr (Y = 0) = e7 t4 = 24.66% 


Enfim, se Z é o número de pedidos em um dia, então Z ~ Poi (0.2) e a probabilidade de haver ao menos um 
conserto num dia é 
Pr (Z > 0) = 1 — e™®”? = 18.127% 


Se W é o número de dias “com conserto” numa semana. Então W ~ Bin (7; 1— ga) e 
E(W)=7 (1 — e™®?) = 1.269 dias por semana com pedidos 


Ex. 48 Seja X o número de lançamentos. Então X ~ Geom (p). O lucro é L = 75 — 12X. 
a) Se p = 0.3 


12 
E(L) = E(T5-12X) = 75 — 12E (X) = 75- 5 = 35 milhões 
Var(L) = Var(75- 12X) = 144Var (X) = (144) ni = 1120 (Smilhões? 


b) Para ter lucro esperado positivo 


12 12 
PR mn- Edo = 
(L) s~ P2 % 


30 CHAPTER 3. RESPOSTAS DOS EXERCÍCIOS DO CAPÍTULO 3 


Ex. 49 a) X Geom(0.4) b) X~ Poi (20/365) c) X" Bin (70, 0.2) 
d) X~ Hip (10,6,60) ou X~ Hip (6, 10, 60) e) X` Bin (2141, 1/365) ou aprox. X~ Poi (2141/365) 
f) X` Hip (4,4,22) 


Ex. 50 Seja X o número de acidentes em um dia. Então X ~ Poi (35) = Poi (0.6). Portanto 


Pr (Bom) = Pr (X = 0) = COl os 


Seja Y o número de dias bons. Então Y ~ Bin (30, E), Assim 
E (Y) = 30e "É = 16.464 dias bons 
Ex. 51 Seja X o número de vezes em que você joga. Então X ~ Geom (p = +). O lucro será 


L = 350 — 10 (X — 1) = 360 — 10X 


a) 
1 
E (L) = 360 — 10E (X) = 360 w = 360 — 370 = —$10 
: q 36/37 2 

Var (L) = 100Var (X) = dig = 100 IVETE = 100 (36) (37) = 133200 ($) 

b) 
36\ 35 
Pr (L >0)=Pr(X <36) = 1- q” =1-— (5) = 61.67% 

Ex. 52 a) Cada dia é uma prova de Bernoulli com probabilidade de sucesso (ação subir) 70%. Assim, Z ~ 
Bin (90, 0.7). 
b) O lucro é 


L = 2Z — 4 (90 — Z) = 6Z — 360 


Assim, seu valor esperado é 


E (L) = E (6Z — 360) = 6E (Z) — 360 = 6 (90) (0.7) — 360 = $18 


c) Temos 


41 
Pr (L > 50) = Pr (6Z — 360 > 50) = Pr (z > 2) = Pr (Z > 68.33) = Pr (Z > 69) 


Usando uma tabela? 
Pr (Z > 69) = 1 — BinomialDist (68; 90, 0.7) = 10.10% 
Ex. 53 a) A distribuição de Poisson é dada por 
eTa 


Neste caso 
Pr(X<2)=Pr(X =0)+Pr(X =1)= eta (1 +7.1) = 0.6683% 


2 Mais tarde, aprenderemos a usar uma aproximação normal à binomial: 


Do 
Pr (Z >69)= / q (x) de = 1 — NormalDist (1.265) = 10.29% 
ax 


onde at = —$85-638 " = 1.265. 


/90(0.7)(0.3) 
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b) Seja Y o número de dias até o primeiro “sucesso” (onde sucesso é X < 2). Então Y tem uma distribuição 
geométrica com p = 0.6683%. O valor esperado de Y é 


Bj e 


= —— = 149.633 
p 0.6683% 


ou seja, o valor esperado é de 149.6 dias. 
c) Basta calcular 


Pr (Y < 90) = 1 — q” = 1 — (0.993317)º = 45.31% 
Alternativas: não ter comemoração significa que cada dia destes 90 é um ”fracasso”, isto é, a probabilidade de 
não ter comemoração é q??. Assim, “algum sucesso” nos próximos 90 dias ocorre com probabilidade 1 — q”. 


Outra opção é criar a variável Z (número de dias de sucesso). Então Z é binomial com parâmetros n = 90 e 
p = 0.6683%. Portanto 


Pr(Z >0)=1-Pr(Z=0)=1-— (KP =r- 
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Respostas dos Exercícios do Capítulo 4 


O, sex <0 
Ex. 1k=2;F(x)=4 q2,se0<x<1 ; moda: 1; quartis: 3 42 e E 
l,sex>l 


0, sex <0 
Ex. 2 k= Z; F(x)= o. se0<ax<m ; moda: 5; quartis: $, 
l,sex>7T 
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e 3: 


Ex. 3 k= a 4º; mediana: A.2"/%; A seria a “riqueza mínima” na população. 


0, sey<0 


mind : = o l,se0<gx<l 
Ex. 4 a) Y é uniforme em [0,1]: Fyr(y)=4 y, se0<y<1 efr(y)= f 0, caso contrário 
1, sey>1 
O, sez<0 1 
? =, se 0< z < 144 
b) Fz (z)=% VE se0<z<144 efzlz)=3 MV SIn, 
te 0, caso contrário 
1, se z > 144 
O, sew<0 i 
==, se 0 < z < 36 
c) Fw (w)=4 LL se0<w<36 efw(w)=4 12vw $2s 
$ 0, caso contrário 
1, se w > 36 
0, sey < —1 =i ya clsurzi 
; ; <y< 
Ex. 5 Fy (y)= 4 1-5 se —l1<y<1 erod F = 
1, sey>l 0, caso contrário 
0, se z < —1 i 
in enlla 
Fs(2) = 1gp asine sp -jSg<i esz =] E 2A se es 
= m 0, caso contrário 
l,sez>1 


Como arccos x = 5 — arcsin x, as distribuições de Y e Z são de fato idênticas. 


Ex. 6 Y é uniforme em [0,1] em ambos os itens. 


Ex. aa SA assim, os quartis são q/1- (JE, 4/1 e 1/1 - va. A fdp. é 


f(x) = abr HA — a)! Derive a f.d.p. e iguale a zero para encontrar Re. à moda no intervalo [0, 1]: 
fo) = ab((a-Dzt 2 att (b- 1) astet (1 af?) = 
= aba PP ((a— 1) (1— z?) — (b — 1) az?) = 0 > 
å=] 
> s=00uzx=1ouaº= 
t ou x ou z? = 5L 
Assim, a moda será 0, 1 ou z3 = 4 — Se a > 1 eb > 1 (o que o enunciado deveria ter dito), então 


f (0) = f (1) = 0 e portanto a moda deverá ser x3. Nos casos em quea < 1 oub < 1 a moda pode perfeitamente 
ser O ou 1 dependendo dos valores exatos de a e b. 
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Ex. 8 Os quartis são —ln3, 0 eln3. A fdp. é f(x) = TE = =. Para encontrar a moda, é mais 
fácil encontrar o mínimo de e” + e”, que se dá para x = Q. 
Ex. 9 
1 2 
E(X) = f z (2x) de = = 
0 3 
2 ! 2 1 
i É 1 
1 X E — — — = — 
Fo] 2 G) 18 
Ex. 10 Lembre como calcular estas integrais: 
/ x sinada = =ecosa + | cosada =sina — acosa 
Na e pm” 
u dv 
G sinzde = -x2cosz + [2ncosada = —z? cosa + (2osina — f 2sinado) = -v cos x + 2z sin x + 2 cos x 
Então: 
E(X) = / zsint y T 
0 2 2 
ia ai 2 
E(X?) o f a sing a, OT 2 
0 2 2 
T? T T? 
X) = 2 ( ) = 2 
Var (X) ( 3 ) 3 7 


Ex. 11 Desde que a > 1, temos 


oo oo 1—a ]%® A172 A 
E(X) = / raA”r dy = aae f x “dar = aA“ É -] = —qAº e 
A A =Qla 


Sea < 1, isto é, 1— a > 0, a integral diverge em +00. Analogamente 


oo o0 2—a ]%® A22 A2 
E(X?) = { rasta lde = Z al“ day = 4º E | aA“ E 
A A 2—-q A 2—-q a—?2 
desde que a > 2 (caso contrário, a integral diverge). Então: 
A? ANY A? 
Var (X) = = ( o ) = 2a 
a-—2 al (a— 1) (a —2) 


Ex. 12 De fato, fazendo a substituição y = 1 + x°: 


1 1 Iny In (1 + a?) 


Então 
m1l+a2 O” Amo 2x 
que diverge! Assim, a integral do valor esperado diverge. 
Ex. 13 Note que t não é uma variável aleatória! Então: 
fO=E (x z 9) = — P (X) + E (X?) 
que é uma função qudrática em t com concavidade para cima; seu valor mínimo será obtido para 


-2E (X) 
m 


t= = E(X) 
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Ex. 14 Esta é um pouco pior. Afinal 
9()=EUX-A=[ In-dlfa)do 


Divida esta integral em dois pedaços, «> tea <t: 


t —+oo 
ot) = | (-afado+ [ -Nfld 


—00 


(f tow- f tet) f stoar [Postado 


Agora, seja F a distribuição acumulada de X, isto é 


ftima=re 


Então 


[tar 


Note também que a SOMA das duas integrais mais à direita é exatamente u = E (X), isto é 


[f toas- toa 


Substituindo isto tudo: 


aO = PO-0-PO)+u-2[ zf(e)dz= 


xf (a) de +p 


= rer(y-n-2 f 


A derivada de g é: 
g' (t) = (2F (t) — 1) +t (2f (t)) — 2t f (t) = 2F (t) -1 
Assim, o único pontos crítico de g satisfaz 2F (t) — 1 = 0, isto é, F (t) = > ou seja, é a mediana. 
Ex. 15 Lembre que 
Pr(X >t) = f (x) dx 
t 


[ erx>na= | f toda 


A integral dupla à direita é feita na região O < t < œ et <x < œ, ou seja, a região do plano at à direita da 
reta x = t e acima da reta x = 0. Inverta a ordem de integração: 


[ >na- f f r@ar= f re (fa) de= f" afede 


pois, para x < 0, f(x) = 0. 


Então 


Ex. 16 a) Seja Y = (X — ju": Como Var(Y) = E (Y?)-(E (Y)? > 0, temos E (x = m“) > (E (x — o) = 


(Var (X)) = 04. Em suma, E ((x — m“) > ot e o coeficiente de curtose é maior ou igual a 1. 


b) Note que o coeficiente de curtose não se modifica se trocarmos X por X +c onde c é uma constante qualquer. 


36 CHAPTER 4. RESPOSTAS DOS EXERCÍCIOS DO CAPÍTULO 4 
Assim, ao invés de trabalhar com a distribuição uniforme em [a,b], vamos trabalhar com a distribuição uniforme 
[-c,c] onde c = 252. Aqui, temos u =0 e: 


E 1 x5 7º ct 
E((X-u)') = Sms) E 
(í m’) |» 27 EA 5 
o (b— a)? c2 É E 
Var(X) = T ad dd =y 


Então o coeficiente de curtose é 


4.1 Exercícios de Provas 


Ex. 17 a) A densidade é 
20000y7, se y > 100 


rm=1 0, se y < 100 


b) 


Pr >20) =1 ram) =1- (1- (3) ) =: 


c) 
+00 2 o0 
= = —0 + 200 = 200 


+oo 
E(Y)= 1 y (20000y7*) dy = I 20000y7°dy = (- e 
100 100 100 
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Respostas dos Exercícios do Capítulo 5 


Ex. 1 a) 
0, paraa < 2 
1, para? <a<3 5 1 
= — < = 4 = =. = — = — 
do e E ai 2 a J Ss f (a) f 0, caso contrário E(A) 2 varta) 12 
b) 
0, para b < 0 1 
= 3 z 3573» Para0<b<1 rd so 
ndo Me pe 1 f) i 0, caso contrário Bis) 4 Vort] 112 
c) 
0, para c < > 1 1 
o a 1 < = =, paras <c<l E . asda 2 
F (c) 2 z? w 2 z i <1 flo f E a E(C)=n2 Var(C) 5 ln“ 2 
d) 
0, sed<0 d 
<d< 
F(d)=?} e-1,se0<d<Mm2? f(d)= i coseU<SAd<nZ roma 1 Var(D)-=1-2m22 
À sed ha 0, caso contrário 


e) Esta variável terá distribuição uniforme em [0, a), isto é: 


0, parae <0 1 
o $ i _ f 2,para0<e<35 d e. 
F(e)=< 2e, para O < e a f(e)= i O caso contrårio E(E)=- Var(E)= B 
1, para e > 5 
f) Aqui vamos usar x como variável: 
0, para x < 0 1 1 
T 0<a<as 1 1 
F(g)= 2 0O<g<il g=s qe PMES TE q E(D=> Var(P=-—— 
E w an rE 4 FU i 0, caso contrário (e 12 aep 180 
» para 1 > q 
Ex. 2 
5 16 16 
Pr (25U° — 16U > 0) = Pr Ustat =l n0 


Ex. 3 Para (c,d) = (r =) ou (c,d) = (= z) 


p= e(y—4)/3 para y >4 , — 3 65(y—4)/3 para y >4 23 9 
= 2 E — 3 + = = = — 
Fly) { 0, para y < 4 Fly) 0, caso contrário a 5 roeL] 
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1-et, set>0 et set>0 1 In3 In2 
ro O, set<0 RO= É e E(T)=0(1)=3 Quartis:m2 — -—;-y; n2 


Ex. 6 Seja T o tempo de vida (em horas). Então T ~ Exp ( 
o 0.01-quantil, pois: 


mm). Queremos que t (o tempo de garantia) seja 


R(t) = Pr (T > t) = 1 — F (t) = et = 0,99 > t = —1000 In 0.99 = 10.050336 
Ou seja, a garantia tem de ser apenas 10 horas (e alguns minutos). 


O lucro é uma variável discreta com apenas 


Ex. 7 Seja T o tempo de vida em horas. Então T ~ Exp (10). 


dois valores possíveis: 


Pr(L=1000) = Pr(T > 800) = e 809/1000 — q-0.8 
Pr(L = —500) = Pr(T < 800) = 1 -— e°’ 


Assim 
E (L) = 1000e7®™8 — 500 (1 — e®™°) = 1500e7®8 — 500 = 173.99 


Ex. 8 Sen > 1, temos: 


oo ret t=oo oo oo 
n+HI n+l —t — o agt n — n —t — n 
E (T j= ttle as ( m D f e™ (n+ 1)t”dt o+ f t"e™dt = (n+ 1) E (T”) 


u dv 


Então 
ET) = nE (T™}) =n (n — 1) E (T"™?) =. = n (n — 1) (n — 2) ...2E (T) = n! 


pois E (T)=1. 
Ex. 9 a) Da mesma forma que fizemos para a distribuição geométrica: 


Pr(T>r+seT>r) Pr(T>r+s) Mt Ss 
Pr(T >r) Pr(T >r) ear ° dg 


Pr(T>r+s|T>r)= 


b) Sim, é possível. Afinal, se o tempo de vida da bateria tiver uma distribuição exponencial, então sua estória 
passada não influi no tempo da próxima falha. Assim, se T é o tempo da próxima falha a partir de agora: 


Pr (T < 24 | estória passada) = Pr (T < 24) = 1 — e-24/500 — 4.6866% 


Ex. 10 Como visto no problema anterior, na distribuição exponencial, a estória passada não influi no tempo 
de ocorrência do próximo evento. Assim, mesmo que já tenham se passado 60 minutos, o tempo de espera pelo 
próximo ônibus seria de (mais) 30 minutos!. Isto não parece estar correto — de fato, o modelo de Poisson 
não é adequado para eventos que ocorrem de maneira tão regular quanto horários de ônibus. No 
horário do ônibus, o fato do ônibus ter passado diminui a probabilidade de ele passar de novo em seguida, e o 
fato do ônibus não ter passado aumenta a probabilidade de ele estar chegando: intervalos de tempo disjuntos não 
são independentes por causa da (suposta) regularidade do horário, quebrando uma das hipóteses do modelo de 
Poisson. 


Ex. 11 Temos que Z ~ Exp(1). Fazendo a experiência no EXCEL, a média das 1000 amostras estará bem perto 
de E(Z) = 1, entre 0.905 e 1.095 (ao menos que você dê muito azar; mais tarde, veremos que a chance desta 
média não cair entre 0.905 e 1.095 é de aproximadamente 0.27%). 


4 


35) para que E(T) = 30. Do jeito que estava antes, T ~ 


1 Havia um erro tipográfico no enunciado original: devia ser Exp ( 
Exp (30), eram 30 ônibus por minuto! 
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Ex. 12 Como as lâmpadas são independentes”: 


Pr(T, > 1 eT > 1) = Pr (T, > 1)Pr (T3 > 1) = e7 14618 = e772 = 55.80% 


Para 3 meses, fazemos 


Pr (Tı > 3 e To > 3) = Pr (T, > 3) Pr (T > 3) = e7?/te7! = e774 = 17.38% 


Sendo T = min (T1, To), é fácil ver que 


Pr(T >4)=Pr(Ti >te Ty > t)=e tet = g2 


ou seja, a distribuição de T também é exponencial com parâmetro À = 7/12. 


Ex. 13 Seja x € [0,1]. Então, como X é o maior dentre U e V e estes são independentes: 


Pr(X < x)=Pr(U <z eV <z) = Pr(U < zx)Pr(V < x) = z.z = r? 


Assim: 
O, sex <0 
? <a< 2 
F(x)=4 22,se0<r<l O ad da E(X) = = 
O, esc: 3 
l,sex>l 


Ex. 14 O método é o mesmo dos últimos problemas: 


Pr (T > t) = Pr (T, 2 t e T 2 t) = Pr (Ti 2 t) Pr (Tz > t) = e7™teT™t = e7 0itàa)t 


que é a f.d.a. de uma exponencial de parâmetro Ay + Ao. 


Ex. 15 a) Para t > 0: 


Pr(X > 2)=1-—Pr(X =0)—-Pr(X =1)=1-— e7% (1+ At) 


b) (T < t) significa “segundo evento ocorre em [0, t]” 
(X > 2) siginifica “ocorreram pelo menos 2 eventos em [0,t]” 
As frases são equivalentes! Assim, Pr (T < t) = Pr (X > 2). 


c) Para t > 0, a f.d.a. de T é 


F (t) = Pr (T < t) = Pr (X > 2) = 1 — e7~™ (1 + At) 


Derivando 


F(E) = Ae™™ (1+ At) — e7™ (A) = Ate 


para t > 0, e claramente f (t) = 0 caso contrário. 


Ex. 16 


E (1.5) = (0.5) T (0.5) = 5; r (2.5) = (1.5) r (1.5) = DO 


Ex. 17 


VE 3v7 
4 


T (3.4) = (2.4) (1.4) (0.4) T (0.4) = 1.344 T (0.4) = 2.981 (entre 2! e 3!) 


2Na primeira versão que estava no site, havia um outro erro tipográfico; trocamos À por Ł e as lâmpadas duravam em média 
menos de 10 dias! Com o enunciado antigo, as respostas eram: 


Pr (Tı > 1e T > 1) 
Pr (Tı > 3 e Tz > 3) 
Pr (T > t) 


A 


Pr (Ti > 1) Pr (To > 1) = e7 1/4618 = e77/12 = 0.09119% 
Pr (Ti > 3) Pr (Tz > 3) = e7 e? = e7?! = 7.583 x 10710 
e™3te7tt = e7 > T ~ Erp (7) 
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Ex. 18 Seja T> o tempo (em minutos) em que o segundo gol ocorre. Então To tem distribuição Gama de parâmet- 


rosa=2eX= 2. A moda de Ts é 


-1 90 
Moda (Ta) —— ag — 31141 


Então eu apostaria no minuto 31 do jogo como o momento do segundo gol. Analogamente, Ty ~ T(3,A) tem 
moda (90) 
2(90 
Moda (T3) = —— = 62.282 
oda (Ts) = 5,39 


Então o minuto mais provável para o terceiro gol é o minuto entre os 17" e 18º do segundo tempo. 


Ex. 19 Faça uma figura e usa a simetria da distribuição normal. Note que A só faz sentido se z > 0. Então: 


F(z) = 1-R(2) ou R(z)=1-— F(z) 
1 
A(z)+R(z) = z Para z > 0) 
1 1 1 
F(z) = 1- (3-40) =3 +40 ou A(z) = F (2) — 5 (para z > 0) 
Ex. 20 Seja Z = >, Então: 
a) Pr(X < 10)=Pr(Z<0)=4. 
b) Pr (X < 18) = Pr (Z < 2) = 97.72% 
c) Pr(X > 13) = Pr (Z > ł) = 1 — Pr (Z < ł) = 22.66% 
d) Pr (13 < X < 18) = Pr (f < Z < 2) = Pr (Z < 2) — Pr (Z < ł) = 20.39% 
e) Pr (6 < X < 14) = Pr (—1 < Z < 1) = 68.27% 
f) Pr(X <0) = Pr (Z < 3) = 0.6210% 
g) Pr(9< X <11) =Pr(—-4 < Z < į) = 19.74% 
h) Pr(X > —4) = Pr (Z > 7) = 99.977% 


Ex. 21 a) a = Normallnv (0.95) = 1.6445 
b) a = NormalInv (0.975) = 1.9600 

c) a = Normallnv (0.995) = 2.5758 

d) a = Normallnv (0.25) = —0.6745 

e) a = Normallnv (0.81) = 0.8779 


Ex. 22 Seja X a altura (em cm) de um estudante, e seja Z = =, Então 
8 
Pr(X > 180) = Pr (z > 5) = 1 — NormalDist (1.6) = 5.4799% 


Agora, seja Y o número de estudantes que têm altura superior a 180cm. Então Y ~ Bin (1000, 5.4799%). Assim: 
E (Y) = 1000 (5.4799%) = 54.799 alunos 


Enfim, a probabilidade de alguém ter 2m de altura ou mais seria: 


28 
Pr(X > 200) = Pr (z > 5) = 1 — NormalDist (5.6) = 1.072 x 1078 


ou seja, muito muito raro. 


Ex. 23 Sejam Za = me eZB= =. Ambos Za e Zp têm distribuição N (0,1). Então 


4 
Pr(X4 >34)=Pr (z4 > 5) mas Pr(Xp > 34) = Pr (Zg >0) 
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Mesmo sem calcular nada, a segunda probabilidade é maior (pois O < é). Assim, preferimos B para a missão de 
34 horas. 
Analogamente 


Pr (X4 > 40) = Pr (z > 5) mas Pr(Xp > 40) = Pr (Zg > 2) 


e, como 5 < 2, agora A tem mais chance de sobreviver à missão! 


Ex. 24 Seja X a nota de um aluno, e Z = A a nota normalizada. Como Z ~ N (0,1), podemos ler os quantis 
0.2, 0.45, 0.85 de uma tabela. São eles: 

Zo.2 = Normallnv (0.2) = —0.8416 

Zo.45 = Normallnv (0.45) = —0.1256 


Z0.85 NormalInv (0.85) = 1.0364 


Calculando os X = 2Z + 6 correspondentes: 


Xo.2 = 2Normallnv (0.2) + 6 = 4.317 
Xo.45 = 2Normallnv (0.45) + 6 = 5.748 
Xo.8s = 2Normallnv (0.85) + 6 = 8.073 


Ou seja, as notas de corte devem ser aproximadamente 8 (para nota A), 5.75 (para nota B) e 4.32 (entre C e 
D). 


Ex. 25 Se Z = XE então Z ~ N (0.1). Os quartis de Z são 


o 


Z0.25 = Normallnv (0.25) = —0.6745 
Zos = 0 
Zo.zs = Normallnv (0.75) = 0.6745 


Assim, os quartis correspondentes de X são u — 0.67450, u e u + 0.67450 respectivamente. 


Ex. 26 Comecemos pela distrbuição normal padrão. Temos: 


f (2) = é 


Derivando duas vezes, temos 


9] 
3 
=~ 
Pa 
x 
© 
Il 
| 
x 
ay 
N 

N 

Sa 

N 


que se anula se, e somente se, z = +1. 
Agora, a distribuição normal geral é 


ge) = g ig (— — ) 


210 o 


Derivando duas vezes com relação a x: 


ag (0) = ir (=) 
ot) = r (=) 


ou seja, os zeros de g” são os zeros de f", que vimos acima serem 


z- 
o 


=p dko 


Assim, os pontos de inflexão de g(x) estão em z +o. 
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Ex. 27 a) Como X = e” é uma função crescente, podemos usar a fórmula de mudança de variáveis para a nova 


fdp. de X 
f) 1 = w? 1 
g(x) = de = ns exp (14) E 


Agora, substituindo x = e”: 
1 (Ina — pu) ) 
= ——— exp | >—— + 
g (y) oao T ( E 


0 1 hô 2. ds 3 
Gráfico da lognormal padrão (u=0 eo = 1) 
b) Como Y =n X ~ N (1.5,1), então Z =Y — 1.5 ~ N (0,1) e então: 


Pr (X > 2) = Pr(Y > ln2) = Pr (Z > ln2-— 1.5) = 1 — NormalDist (In 2 — 1.5) = 79.01% 


5.1 Exercícios de Provas 


Ex. 28 a) Como X > 0, podemos usar que Y = X? é uma função crescente. A fórmula de mudança de variáveis 
dá (para x > 0) 


fx (x) Jagxe em à 
ty (y) = g = E =q€ = ae™ "Y 
da 


que é a densidae de uma distribuição exponencial de parâmetro a. 
b) Usando Y = X2, sabemos que Y ~ Exp (0.01). Então: 


Pr (X > 20) = Pr (Y > 400) = 6 MM) — e74 = 1,832% 


c) Note que, para x > 0: 


2 


F (x) = Pr(X < x) = Pr (Y < 2°) = 1- e“ 
Então: 


= 0.02x 


3 0.02 —0.01x? 
Ma) = Ho tee 
1= F(x) e- 0-012? 
d) As probabilidades de pequenos intervalos são aproximadamente proporcionais ao valores das densidades nestes 
intervalos. Assim, basta comparar 


f(10) = 0.2e7} = 7.358% 
f (20) = 0.4e7’? = 5.413% 


Como a primeira é maior, é mais provável que o equipamento falhe no primeiro dia do décimo mês do que no 
primeiro dia do vigésimo mês. 

e) A taxa de falhas é A(x) = 0.02x (falhas por mês). Como a taxa de falhas é menor para x = 10 do que para 
x = 20, eu preferiria usar o equipamento com 10 meses de uso. 


5.1. EXERCÍCIOS DE PROVAS 
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Ex. 29 a) Se T é exponencial, a estória passada não influencia na estória futura. Assim 


E (T) = 30 meses 
isto é, (30 meses a partir de agora). 


b) Se T é uniforme e E(T) = 30, então T é uniforme em [0,60]. Como já se passaram 24 meses sem falha, 
temos para t € [24,60]: 


Pr(24<T< aê 
Pr(T<tT > 24) = PM ST<O 


© Pr(T>24 3# 36 

ou seja, a nova distribuição de T (dado que T > 24) é uniforme em [24,60]. Assim, o valor esperado de T é 
E (T) = 250 = 42 meses (ou seja, daqui a 18 meses). 

c) SeT = N (30, 102) então, tomando Z = Lg 


Pr(T>40eT>24) Pr(T>4 
Pr(T>24+16|T>24)= PMU24eT22) Pr(T=40) 


Pr(Z > 1) 0.1586 

= = = = 21.86% 
Pr (T > 24) Pr(T > 24) Pr(Z>-0.6) 0.7257 
Ex. 30 a) Note que X ~ Poi (2t), portanto 


P(X>9)=1-Pr(x=0)-Pr(x=1)=1- 08! 


2 È 
7 e? ( et Es Es (1 A 2t) et 


Note que os eventos X > 2 e T < t são equivalentes, pois resolver pelo menos 2 questões em t horas significa que 
o tempo de resolver as 2 questões é menos de t horas. Assim 


Pr(T<tH)=Pr(X>29)=1-(1+2te" (desde que t >0) 
b) A f.d.a. foi calculada no item anterior 


F()=1-(1+2t)e"* 
Derivando, temos a f.d.p. 


fA = 2e” + (1+2) 2e% = 4te™™ parat>0 


Uma alternativa é perceber que simplesmente esta é a definição da distribuição Gama, isto é, T segue uma 
distribuição Gama com parâmetros a = 2 e A = 2 Então 


pas 


TO tle >t =4te parat > 0 


c) Para a distribuição Gama, sabemos que E (T) = a/X=1 e Var (T) = a/à? =0.5. Se você não lembra destas 
fórmulas, terá que fazer 


oo oo d 
E (T) = / 4e dt = / uZe 
0 0 


u 1 1 
S e =9] 
z =9"()=52=1 
oo o ,,3 l 
2 iago Lpa pws a 
E(P) = f 4tºe a= f zê z5r O A 
Var (T) = E (T?) -(E(T) = 0.5 


d) Terminar a prova é ter T < 1.5, o que acontece com probabilidade: 


Pr (T < 1.5) = 1 — 4e™°’ = 80.09% 


Então esta é a porcentagem esperada de alunos que terminará a prova antes de 1 hora e meia. 
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Ex. 31 a) Sejam Za = Zam e Zg = Auto Então Za ~ N(0,1) ~ Zg. Temos 


995 — 991 
4 

995 — 988 
14 


Pr (X4 < 995) = Pr (z4 < ) = Pr (Z4 < 1) = 84.134% 


Pr(Xp < 995) = Pr (z < ) = Pr (Zp < 0.5) = 69.146% 
Assim, a máquina B é melhor, com 69.146% de pacotes rejeitados. 
b) Seja L o lucro de um pacote. A distribuição de L é simplesmente 


l $0.40 $0.25 
Pr(L=1) 30.854% 69.146% 


Então E (L) = (0.40) (0.30854) + (0.25) (0.69146) = 0.296281 ~ $0.30 por pacote. 


c) O novo Za é dado por “ATÉ. Queremos 


Pr(X <995)=Pr(Z<2z)=0.33 
Na tabela, procuramos por (—) 0.17 e encontramos z = Normallnv (0.33) = (—) 0.44. Então 


9H 044 p=996.769 


é a nova média pedida. 
Ex. 32 a) Como X = e-*” é decrescente, podemos usar: 


fr (t) Ae At 
“de eN 


dt 


fx (x) 


que é válida para t > 0 (que corresponde a 0 < e™™ <1). Assim, X é uniforme em [0,1] e, portanto, E (X) = 5. 
b) Fazendo u = At, temos: 


o Cyro du 1/9 Elos). n 
E) = f maea = | O = | fig 0 0 
0 0 0 


pois n é natural. 
c) Do item anterior, temos 


E (T) =; E (T?) = = E (T°?) = £ 
Var (T)= E (T°) - (ET)? =} >0(T) =} 
Subsituindo tudo na expressão de Sk (T), temos 
Sk (T) = ESAN + o 


Chapter 6 


Respostas dos Exercícios do Capítulo 6 


Ex. 1 a)k=4 
_ f 2e; se0<sr<i _ j} 2y, se0<y<1 
b) fx (e) = ( 0, caso contrário ’ fy (y) = f 0, caso contrário 


c) Sim; portanto Cov (X,Y) = 0. 
d) Pr(X+Y <1)=¢4 ePr(X+Y< n 
E se0O<y<l 


e) Para0<ax<1: fyix (yle) = fy(y) = DE taso coniro E[Y|z] = E (Y) = £ 
Ex. 2 a)k=8 

E _ J 41-4), s0<y<1 
b) fx (1) = Co 0, caso contrário ’ fa) = f 0, caso contrário 


c) Não; Cov (X, Y) = 35 
d) Pr(X +Y <1) = f? i a a jsp “ Buy da dy = $ 

. 4, seO<y<a 
e) Para0 <z <1: fp (yļz) = [5 0, caso contrário 


2) fxyy 2e) fyix 2e) Suporte de f (x,y) e E [Y |x] = 
Ex. 3 Note que f (x,y) = 1 em [0,1] x [0,1] (e 0 caso contrário). Então: 


B= | f wiwe f (o w= f dy = (n (y + lg = n2 


Ex. 4 
fru) = 1 6zdx = 3y? para0<y<1 
f(x,y) 6x 2 
z = 2a 
fxi (zly) Fo (1) E 
Y dx 2x3] 2y 
XY =y) = [ adido (l . 
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4) Suporte de f (x,y) e E[X|y] = a. 4) Para cada z fixo, Y ~ U [2,1]. Assim, E [Y |z] = a 


Ex. 5 Os dados do problema são 


1 
fxpy (ely) = — para0< x< y (e0 caso contrário) 
y 
fy (y) = 1 para0<yK<1 (e0 caso contrário) 
então 1 
f (œY) = fxyy (ly) fy (9) = Tii O<z<y<l(e0cc.) 
e assim 
Pr(X>04) = a [= = dedy = 0.6 + 0.41n (0.4) = 0.2335 
0.4 J0.4 
Co(x,y) = Egym-egoeqy=l-ll-d 
v = es e E 
id 6 42 2 


5) A região x > 0.4 dentro do suporte de f. 5) Curva de regressão: E [X|y| = & 


Ex. 6 Note que este não é propriamente um problema de duas variáveis, mas a idéia é a mesma da distribuição 
condicional. Dado que X > a, a nova densidade de X é 


HO ME L ho Alaa 
felx>a)=] pieg — e SAA) parar >a 


0, caso contrário 


Então, fazendo y = x — a: 


E|X|X >a] =| a(r) da= f (a +y) Ady = a + 5 
Ex. 7 Escrevendo E [X|y| = g (y), fica fácil de ver o que está acontecendo. Afinal: 
EEY) = Blat) = f o(a) fr) dy 
onde fy é a densidade marginal de Y. Porém, sabemos que 


g (y) = E [Xly] = T xfxy (xy) dx = T zf (x,y) 


— o0 fr (y) e 


Subsituindo esta fórmula acima: 
rex- | (S 2i) row f" aftoa)dedo= (O) 


; ze 7, sez>0e0<w<1 
Ex. 8 = $ P FER 
ai 9) Fame (2,10) f 0, caso contrário 


ze *,sez>0 
0, caso contrário 


l1, se0<w<1 


be) Note que Z e W são independentes! Então fz (z) = i O. cast conania? 


; fw (w) = i 
ou seja, Z ~ T(2,1) e W ~ U [0,1]. 


Ex. 9 Pelo método do Jacobiano, calculamos a densidade conjunta de W e Z: 


fwz (w,2) = f AA m (w, Z) E Q 


0, caso contrário 


onde Q é o quadrado de vértices (0,0), (1,1), (0,2) e (—1,1). 


Plmy)=(2+92—3) 


X 


O suporte de fx y. , suporte de fw,z. 


Integrando para encontrar as marginais, temos: 


E se0<z<1 
a) fz (2) = 4z = 2848 se1<z<2 
0, caso contrário 


02 04 06 08 4) 12 14 16 18 2 


9a) fz (z) 


ee que +2w, se -1I<w<o0 
b) fw (w) = dzu? 2w, se0<w<1 
0, caso contrário 


108 -0.6 04 020 “02 04,06 08 1 


9b) fw (w) 


c) Não há necessidade de usar a densidade conjunta de W e Z. Basta fazer 


Cov (Z,W) = Cov (X +Y, X —Y) = Var (X) — Var (Y) 
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Mas é fácil ver que X e Y são independentes com a mesma densidade marginal cada, a saber, fx (x) = 2x para 
x € [0,1] (e 0 caso contrário). Assim, Var (X) = Var (Y) e Cov (Z,W) =0 ep(Z,W) = 0. No entanto, Z e W 
claramente não são independentes, pois o suporte de fw,z não tem lados paralelos aos eixos. 


Ex. 10 A densidade conjunta de W e Z é 


z? — w?, se (W,Z) ET 


0, caso contrário 


fw,z (w, z) = f 


onde T é o triângulo de vértices (0,0), (1,1) e (0,2). 


Pe Leo) 


x 


Ww 
O suporte de fx y. O triangulo T, suporte de fw,z. 


Integrando corretamente, obtemos a mesma marginal de antes para Z, mas a de W muda um pouco: 


2, se0<z<1 
a) fz (2) = 4z — 248 se1<2<2 
0, caso contrário 


02 04 06 08 4) 12 14 16 18 2 


9a) fz (2) 


8+4w? ns , 
) fwlw=4 "3. 4w, se0<w<l 
0, caso contrário 


9b) fw (w) 
c) Vamos calcular diretamente Cov (W, Z). Afinal: 


E(WZ) = ffo z2? —w°) dA = f L wz (2° — w?) ddw = 5 
2—w 4 
E(W) = f [ee-e ) dA = [fa w (22 — w?) dedo = — 
E(Z) = [fot -u?) a-f [o a (2 cu?) dedo = $ 
0 Jw 
1 44 1 
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Ex. 11 A densidade conjunta de X eY será 


Ee Ae A-AY sex,y>0 
0, caso contrário 


Seja z > 0. Então: 


F(z) = Pr(Z<z)=Pr(X-Y<z3)= 
oo y+z 1 
= I f Ae A+ dedy = 1 — e 
o Jo 2 
Assim s 
he? 
f (2) = F' (2) = 
Como X eY tem a mesma distribuição, por simetria temos que f (z) = f (—z). Assim 
Ae AZ! 


para z real. 
Se as taxas fossem diferentes, teríamos a densidade 


—Ajx—AÀ 
AjAge” ^ 24 sex,y>0 
0, caso contrário 


Fe) = 


e então, para z > O: 


iz 
—, 
W 
<~ 

Il 


Pr(Z<2)=Pr(X-Y<2)= 


y+z N e7 àz 
Age NE Avdrdy = 1 — 52 
IN / ? da Ai + Às 


Assim, para z > 0, temos: 


Trocar Z = X —Y por —Z =Y — X é o mesmo que trocar X por Y (isto é, A por Ao): 


l àià2 e=à1z, sez>0 


Nas 
ES cdi sez<o0 


> 


f(2) = 


Ex. 12 A densidade de X eY será f(x) g(y). A partir daqui, há dois métodos de ataque. 
a) Pela acumulada de Z, temos: 


Pr(Z < z)=Pr(X +Y <2)= T. fo f(x) g (y) dyda 


Para a integral de dentro, f é constante. A integral indefinida que sobra é G (y) (a fd.a. de Y), mas calculada 
em z — z, isto é 


P(zsa= f f(x) G (z — x) dz 


Derivando com relação a z: 
F=] FEC e-ad= | Haole-ado 


b) Usando o Jacobiano, note que a densidade conjunta de X e Z será simplesmente 


2,2) = fe) DE = [9] = f(@)g 0) = f(e) (2-2) 


1 1 
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Para encontrar a densidade marginal de Z, integramos com relação a x: 


fz = f 1o)ole-ajda 


Ex. 13 Usando o resultado do exercício anterior 
Oo 
f=] 109e-nd 
—oo 
onde f(t)=1 apenas para 0 < t < 1 eg(u)=1 apenas para u € [0,1]. Então: 


r= [ole-nat= f sodu 


Para 0 < z < 1, esta integral se anula exceto por 


f owas f ldu = 
0 0 
1 1 
/ gu)du = f ldu = 2 — z 
z2—1 2—1 


Caso contrário (z < 0 ou z > 2) a integral toda se anula pois não há interseção entre |z — 1,2] e o suporte de 
g (u) (que é [0,1]). 


Já pära l< z<2: 


Ex. 14 Seja g(a) a função densidade de X +Y encontrada no item anterior, isto é 


a, sea € [0,1] 
gla)=<4 2-a, sea e [1,2] 
0, caso contrário 


Como Z e X +Y são independentes, podemos usar a convolução de f com g onde f é a densidade uniforme em 
[0,1]. Assim, a densidade de W será: 


hw= f tosw-)a= f gto-gat= f" g (u) du 


w—l 


pois f (t) = 1 em [0,1] e tomamos u = w — t. Note que há vários casos a considerar: 


Sew < Oouw>3,g=0 em todo o intervalo de integração 


w w w 2 
Se0 < w<l, g(ujdu = f g(ujdu = | udu = — 
w—l 0 0 2 
w 1 w 3 
Sel < w<2 f g(ujdu = f udu + f (2-u)du = -w +3w- 3 
w—1 w—1 1 
w 2 9 1 
Se2 < v<3, f g(ujdu = f (2-udu==-3w+ =w’ 


v—1 w—l 2 2 


Ex. 15 A densidade conjunta de X e Y é o produto das marginais: 


eae A1à2e7™ TAY, caso x,y > 0 
19) = 0, caso contrário 


Então a densidade conjunta de X e Z = X +Y será 


= O (x,y) a Adoe Art dale) caso << 
Íx,a (2,2) = f (2,9) a(x, z) 0, caso contrário 
— e” 


1 
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Integrando com relação a x obtemos a marginal de Z: 
z (A2—à1)z _ 1 —À1Z _ p—À2Z 
: e e e 
fz (z z Age Are Meda = Agde MD H Aa 
(2) 0 Ao — A Ao — A 
desde que z > 0. 
Agora, defina g (A) = e. Então a fração é a taxa de variação média a quando À varia de Ay até A» (exceto 
por um sinal negativo). Assim, se A e À» se aproximam de À, a fração se aproxima de 
=g' (A) = ze" 

e a densidade de Z se aproxima de fz (2) = \X°ze™™ (que é exatamente a fórmula da distribuição gama de 
parâmetros 2 e À, como era de se esperar). 


Ex. 16 A densidade conjunta de X e Y será o produto das marginais 


1 =x? — y? 
ren = so exp (EE 
Usando o Jacobiano, a densidade conjunta de W e Z é então 


Fey) Hay) Hay) 


a b | asd 


Para trocar aquele z? + y2, note que 
W2+2Z22=(aX+bY) + (bX — aY} = (a? +42) (X? +Y?) 


então 


fmz (1,2) = 575 iai 
WZ Do = ora? +02) PPla(a 0) 


Como esta função é separável, isto é 


fw,z (10,2) = FTA G zm) (= o (a) 


Concluímos que W e Z são independentes. Aliás, as suas marginais estão aqui em cima, e correspondem clara- 
mente a distribuições normais de parâmetros u = 0 e o? = a? +b?. Em suma, provamos que 


X ~ N (0,1) 
Y ~ N (0,1) => W =aX +bY ~ N (0,a° +°) 
X eY são independentes 


ou seja, combinações lineares de variáveis normais-padrão independentes são também normais. 


Ex. 17 Novamente, a densidade conjunta é 
1 —r? = y? 
sen = so exp (EE 


Tomando as novas variáveis X e W, temos Y = XW e então: 


fm (2x) = 1 (0,0) [5 = 1(0)] o 


Integrando com relação a x e fazendo u = 2: 


1 [9 =z? — rw? W =r? — rw? 
= E , = d = — = ds = 
fw (w) SE E oleo ( z ) t 3) zep ( 7 ) x 
00 


1 1+w2) du 12 1+w2 | 
= F exp (-u 7 )S- areas (e (cu 3 |= 
i- í 
Tlw? 


Ou seja, W tem distribuição de Cauchy! 
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Ex. 18 a) Sep = 0, a densidade conjunta é separável: 


f(x,y) = — a (=) = di (5) 


então X e Y são independentes. A separação evidencia as marginais, que são as densidades de N (0,02) e 
N (0, 02) , respectivamente. 
b) Mudando de X,Y para X,Z temos o Jacobiano 


ð(x,z) | 1 0 | 1 
Dew | Go) or 
Então a nova densidade conjunta, é 
f(x,y 
fxz (1,0) = EB -= oy f (2,9) 
Ea 


Ainda temos que substituir y em função de x e z. Isto fica mais fácil se completarmos os quadrados: 


2 2 2 


2 
y 2pxy y T q HA 
e e pio 
o4 


2 
og  Tr0y Oy Üz 


Assim 


herna 1 ( 22 r? ) 
7,2) = ex 
Re 210411 — p? Plosa (1—- 92) 202 


Note que esta função é separável, assim X e Z são independentes. De fato, a separação em marginais é 


1 


fem) = [= exp ( =) (=l ts) 


que correspondem a duas distribuições normais, sendo a primeira N (0, 02) e a segunda N (0, I= p): 
c) Note que Y = oy Z + poy Š. Então 


Cov (X,Y) = oyCov (X, Z) + PH oo (X,X) = Povo 
ox 0x 


pois X e Z são independentes. Assim 
Cov(X,Y) 
p(X, Y) = E =, 
oOxOoy 
justificando o símbolo que estamos usando para esta constante. 
d) Uma curva de nível é simplesmente uma curva onde o expoente é constante, isto é 


Portanto, esta curva é uma elipse. 
Ex. 19 No exercício anterior, vimos que X e Z =Y — pX são independentes e E(Z) = 0. Então 


E[Y| X = z] = E[Z + pX | X = z] = E[|[Z|X = z] + E [pX|X = z] = E (Z) + px = pz 
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Ex. 20 a) Como a densidade é uniforme, k = T = >. 


b) Para x € [0,2] podemos integrar a densidade com relação a y: 


2— 
1 
ra= [ =dy=1- É para z € [0,2] 
o 2 2 


Assim 
f 2“ J1i-5,sel<rx<2 
x (2) = 0, caso contrário 
c) 
2—r 
E(XY) = f f tys dydx = 
2—r 2—r 
E(X) = bh r= adude == nhh y= dude = 
Cov (X,Y) = XY)- E(X)E(Y)= 33 ~ 


d) Por simetria, a marginal de Y é análoga à de X: 


2—y 1 y 
fo)= f gdr=1- E paray e [0,2] 
0 


Então a condicional de X dado Y = y é: 


1/2 1 
fxr (xly) = o = ts é [0,2=.4] 


1-y/2 2— 
Ou seja, dado que Y = y, X é uniforme em [0,2 — y], como era de se esperar. Em particular, para Y = 1, X é 


uniforme em [0,1]. Assim: 


1 1 
pr(x=51Y-1) =Pr(x>31X~ u01) = 
Ex. 21 Note que a densidade é separável 


= S (e77) (e), para z,y > 0 
f(x,y) = f 0, caso contrário 


Assim, X e Y são independentes. Aliás, é fácil identificar as distribuições exponenciais de X e Y acima. Assim: 
a) X ~ Exp (1), isto é, f (£x) = e™®” para z > 0. 

b) Como X e Y são independentes, a condicional de X dado Y = y também é f (x) = e™® para x > 0; também, 
Coo( X, Y)=0. 

c) 


Pr(X >Y)= / f 3e dydz - | (vet + e7?) dx = 
0 0 0 4 
d) 


Pr(X>1ouY>1) = 1—Pr(X<1l1eY<1)=1-—Pr(X<1)Pr(Y <1)= 
1— (1— et) (1— e7?) = e7? + e7! e! = 39.94% 


Ex. 22 a) As retas que limitam o triângulo são x = 0, y = 2z — 2 e y= z. É fácil ver que f > 0 pois x > 0 em 


T. Assim, basta verificar se: 
|_| _tenas=f f tæna= 
zola T 
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ou seja, 


2 pe 2 2 372 
I Z da= [ (0) - (20 -2)do = 5 | (2x — x°) Me L-Z s a 
o J2z—2 4 4 Jo 4 Jo 4 Slo 43 


A densidade marginal de X é 


fx (x) = mo Edy= "E -a)=G(2a-a?) para0<a<a2 
0, caso contrário 


b) Temos 
140 1 341 
3x 3 3 2x 1 
haies] [ Tdydo = f x (2 — 2x) da = (e ) = 
o J2z—2 4 4 Jo 4 3 Jo 4 
E a ' 3/> æ\' 32 1 
a = — — í T= A = = 
Pr(X <1) Te a de z(e 3), 4373 
Assim 
Pr(y <o|x<1)= É -s0% 
r = — = 
> = 1/2 i 
c) A condicional de Y dado X = x só faz sentido para O < x < 2. Neste caso: 


frix wie) = EO “3 as a~? - Raid 


ou seja, a distribuição condicional de Y dado X = x é uniforme no intervalo [2x — 2, x]. Portanto 


(2x—-2)+z 3z 
E [Y |z] = 3 = 1 


cuja curva de regressão é 


d) Precisamos calcular E (X). Temos 


Eœw= f fx (ado = | Ž (o? °) de =Ë 


Assim, 
Var(X) = E(X?) (BO) =5-1=5 
5 a e o l 
Va (Y) =E) -EYP =$-1-E 
A i. 3 
Cov (X,Y) = E(XY)- E(X)E(Y)=2-3=3 
p(X,Y)= o = SA1 a 0.9045 


111 
5 20 


X eY não são independentes, pois o suporte de f (x,y) não é retangular (ou, pois Cov (X,Y) 0). 


e) Temos 
9(X,2)| 
CIPA 


Assim, a densidade conjunta de X e Z será idêntica à original exceto pelo suporte: 


eseni -4 =" 
-2 1 


3€ para (£,z)€ R 
0, caso contrário 


fx,z (2,2) = f 


onde R é o triângulo delimitado pelos pontos (x, z) = (0,—1), (0,1) e (2,0): 


Enfim, 
3 31 


10 25) 


X 
Cov (X, Z) = Cov (xy - 7 + 1) = Cov (X,Y) — SVar(X) = 


Ex. 23 a) Para 0 < y < 1, temos 
i 
ro=f -dz = ln2 —ln1 = ln 2 
1 T 


Para 1 < y < 2, temos: 
2 
1 
ty (y) = / -de=In2-lIny 
y 


Juntando tudo: 
In2, para0<y<l 


fy (y)=4 In2-Iny, paral<y<2 
0, caso contrário 


cujo gráfico é 


b) O determinante Jacobiano é 
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Portanto 
E 
fx,z (1,2) = frey = 1 em seu suporte 
1/2 
Para encontrar o suporte, transformamos cada lado do trapézio: X = 1 e X = 2 continuam sendo as retas X = 1 
e X = 2 no plano XZ; a reta X =Y torna-se Z = Ý =1; a reta Y = 0 torna-se Z = X =0. 


Assim, o novo suporte é simplesmente o retângulo i <X<2e0<Z<1 A distribua de X e Zé uniforme 
neste retângulo. Portanto, X e Z são independentes, e as marginais serão também uniformes: X ~ U [1,2] e 
Z ~ U [0,1]. Daqui, tiramos rapidamente E (X) = 1.5, E (Z) = 0.5 e Var (X) = Var (Z) = 5. Enfim 


E(X?) = Var(X) + (E(X) = +45 
B(2)=Va(2) (EDP => +1 


c) Como X e Z são independentes, 


o E 
BYEZ) re) 
Var Y)=EY) -EYP =-:-2-5 


d) Note que 


= gen à pe 5 Í 2 
Bestel cauda = | Tae- f 1 — -dg = (x — ln z|] = 1 — ln2 
i Ji T 1 1 1 


Assim, W ~ Bin (100,1 — In 2). Usando uma tabela ou computador 
Pr (W > 40) = 1 — BinomialDist (39; 100, 1 — In 2) = 3.001% 
e) Temos 
3 x-1 2 
Pr(x=5e Y> 1) = E f Layas f dz = (1 — ln z] 5 = 0.5 — ln 2 + ln 1.5 = 0.212 
2 1.5 15 T 


Pr (Y > 1)=1-— ln2 (do item anterior) 


.5—ln2+1nl1. 
iso mr Co 
1-In2 
f) Alternativa 1: Como X e Z são independentes 
EY|=E|XZ|X=2=E[2Z]X=2=2E[Z]X=0]=2E[Z] = 5 
Alternativa 2: Para cada X = z fixo, note que a distribuição de Y é uniforme em [0,2]. De fato 
fly) 1 
2) = = ara 0, x 
Assim, E[Y|X = x] = & (média da uniforme em [0,x]). O desenho da curva de regressão é a reta mais forte 


abaixo: 
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Ex. 24 a) Encontremos a distribuição conjunta de X e Z. Em primeiro lugar, o determinante Jacobiano é 


ð (X, Z) — 1 0o 1 
(XY) |-2H 1] 
Assim, substituindo y = z + «2, encontramos a nova densidade 
_fxy@y)_ 1.1 
E Die 


cuja região suporte éO<a<lex2<z+ta<r+1, istoé,0<x<1e0<z<1. Como esta densidade pode 
ser expressa como uma função e x (a saber, 1) vezes uma função de z (a saber, zz) e seu suporte é retangular, 
concluímos que X e Z são independentes. 

b) Da observação acima, vemos claramente que X é uniforme em [0,1], e portanto 


1 n+171 
E(X”) =| a"dy = (> as 
0 n+1lo n+Hl 


Observação: se você tiver alguma dúvida, volte à distribuição original 


a2 41 224 q? 
' 1 1 = 1/02 1/2 ag“ +1 
ka= [, ava) (4-0) "2 ay = ((y — a?) es =1-0= 


para 0< x< 1 (e fx (x)= 0 caso contrário). 
c) A maneira mais rápida é fazer 


Cov (X,Y) = Cov (X, Z + X?) = Cov (X, Z) + Cov (X, X?) 
O primeiro termo é nulo pois X e Z são independentes. O segundo pode ser calculado assim 
Cov (X, X?) = E (X.X?) — E (X) E (X?) = E (X?) - E (X) E (X?) 


Com o auxílio do item anterior: i 
Cov(X,Y) = — — J 

d) A maneira mais rápida é fazer 
E[Y]|x] = E [Z + Xº|x] = E |Z|x] + E [Xº|2] 


Como X e Z são independentes, E |Z|x] = E [Z]. O outro termo é simples: se X = x, então X? = x2, isto é, 
E [Xº|x] = 22. Só falta calcular E [Z]: 


2i PARA 1 
a= f azes 


Então, E [Y |x] = x? +4 (para 0 < £ < 1), cuja curva de regressão se encontra no gráfico abaixo: 


Chapter 7 


Respostas do Capítulo 7 


Ex. 1 4 densidade conjunta é 


1 ; 
fare- z se —1<rı<le0<zr<1 
0, caso contrário 


Observando as áreas dos vários triângulos abaixo, obtemos a acumulada de S: 


(1+ 8) 
4 


Para -1 < s<0:Pr(S<s)= 


1.4 
Para0 < s<1:Pr(S<s)=3+2 


(2-8) 
Paral < s<2:Pr(5 <s)=1- ED =s (1- 


A f.d.p. será então a derivada: 


0, caso contrário 
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FDA. de S F.D.P. de S 


Ex. 2 A densidade conjunta é 


Fiore Ae NM segi >0e0<z2<1 
PEPR 0, caso contrário 


Tome S = Xı + Xə e Xı (o Jacobiano é 1). Note que 0 < xs < 1 se, e somente se, 0 < s — xı < 1, isto é: 


Ae NI se0 <r es—-1<rı<s 
0, caso contrário 


f (x, 5) = ( 
Devemos integrar em xı para encontrar a marginal de S. Há dois casos a considerar: 


S 
Se0 < s<1, então fs (s) E Ae idea = 1 — e> 
0 


Sel < s,então fs(s) = Ae Midi =e OD gr 
s—1 
Juntando tudo 
1-e NM, se0<s<l 
f(s) = ee (eì — 1), se1<s 
0, caso contrário 

FDP. de S (caso A = 2): tubarão! 

Ex. 3 Como X = & é crescente (como função de Sn), temos que g (x) dz = f (s) ds, isto é 


g (7) = nf (nz) 


ou, usando as letras do enunciado 
g (y) =nf(na) 
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Ex. 4 a) Faça uma tabela para Xı e Xə (e marque S em cada célula): 


XX 1 2 3 Total 
1 15; So = 2 biS =3 ip) Sa = 4 1 
2 qiS2=3 g$2=4 Tg; 92 = 5 E 
Total 7 q A 

Assim, as funções de probabilidade de So = Xı + Xə e de X = S5/2 são: 
s 2 3 4 5 6 
T E 1 3 2 š 3 
Pr(S2=s)=Pr(X =) E  Ż ý 


b) Como S2 e X3 são independentes, a tabela de S2 e X3 será: 


XNSo 2 3 4 5 6 Total 
1 12 5 4 4 ı 
2 64 G4 q4 64 6 ou i 
3 G4 6 ft fó G4 G4 4 
64 64 q4 64 64 4 
i 2 4 4 


s 3 4 5 6 7 8 9 
4 5 7 8 
r E E E 
Pr (Ss =s)=Pr(X =) q a a a a aa 
c) Analogamente, achamos a função de S4 = S3 + X4 e X (para n = 4): 
s 4 5 6 T 8 9 10 Ii 12 
on 1 1.25 1.5 1.75 2 2.25 2.5 275 3 
Pr(M=5)=Pr(X=2) 2 4 14 28 49 56 56 32 16 


256 256 256 256 256 256 256 256 256 


d) Para fazer os histogramas, use a planilha TCL.xls na página do site do curso. Coloque os valores 0.25 para x = 1 


e x = 2 e a probabilidade 0.50 para x = 3 (não se esqueça de zerar as outras probabilidades para x = 4,5,6, ..., 10 
e x =0). Mude o valor de n no gráfico e veja os histogramas. 


Ex. 5 Se X e Y são independentes, o suporte de Z é [a+c,b+d] (por exemplo, note que Fz (a+c+e) = 
Pr(Z<a+c+e)>Pr(X<a+5).Pr(Y<c+5)>0, então fz (z) #0 paraz =a+c+e). SeX eY não 
forem independentes, a resposta pode mudar — imagine por exemplo que o suporte de f (x,y) é um quadrado de 
vértices (0,0), (1,1),(0,2) e (-1,1). Então o suporte de X é [-1,1] o suporte de Y é [0,2] mas o suporte de 
Z = X +Y é apenas [0,2] ao invés de [-1,3]. 


Ex. 6 Seja Z = X — u. Então Z ~ N(0,1) e 
Pr(—1 < X-—u<1)=Pr(—1< Z < 1) = 68.269% 


-5 ~o 4 — X-u ~ 
Agora, outra variável normal padrão é Zə = IJE Então 


Pr (=1 <= 1) = Pr (—4 < Z2 < 4) = 99.99367% 
Em outras palavras, X fica perto da média u muito mais provavelmente do que X. 


Ex. 7 Basta usar repetidas vezes o teorema que diz que, se X ~ N (3,4) e Y ~ N (7,1) forem independentes, 
então aX +bY ~ N (3a + 7b, 4a? +b?) Assim: 

a) 5X ~ N (15,100) b) X +Y ~ N(10,5) c) -X ~N (-3,4) 

d) X -Y ~ N(—4,5) e) 2Y -3X ~ N (5,40) 
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1 
pa 5) = 38.29% 


X£= 


e ~ N (0,1) Então 
Pr (95 < X < 105) = P (- 
= 2 NormalDist (1.58) — 1 = 88.615% 


~ N (0,1). Então 
Wi ups 2) 
Ea 
) =Pr (1zi < s) 


Ex. 8 Sabemos que Z = 
X-100 
/v10 
2 
Novamente, note como X quase certamente fica “perto” da média (muito mais certamente do que X pelo menos). 
105 — 100 


Por outro lado, Zo = O 
—1 
95 — 100 EA - 


Pr (95 < X < 105) _ 
Mudando o n, teremos Z = yn (=) ~ N (0,1). Então 
10 
~ N (0,1) e então 


S12—720 
v 768 


Pr (95 < X < 105) = Pr (vm 
o = NormalInv (0.975) = 1.9600 => n = 4 (1.96)? = 15.366 
) = 1 — NormalDist (1.0825) = 13.951% 
X-6 
0.8 


750 — 720 


Se quisermos que isto seja 95%, devemos tomar 
Assim, devemos tomar pelo menos n = 16 amostras. 
Ex. 9 A massa de cada figo é X ~ N (60,64). Então a massa de 12 figos será S12 onde E (S12) = 12E (X) = 720 
e então 


Se 
-~ vT68 
0-3 


Ex. 10 Seja X = ——. Supondo que as três provas são independentes, podemos afirmar que a distribuição 
de X é normal, a saber, X ~ N (HS , 14242-76) = N (6,0.64). Normalizando, Z = 
Pr(Z >0) = 50% 
1 
Pr (z > 55) = Pr(Z > 1.25) = 10.56% 
= 78.833% 
mm) i 


e Var (S12) = 12Var (X) = 768, isto é, S12 ~ N (720,768). Normalizando, temos Z = 


Pr (512 > 750) = Pr (z 


Pr (X > 6) 
Pr (X > 7) 

Seja X = Pı + Po — 2P3. Note que X ~ N (T +6-— 2 (5), 1 +2 + 4(2.76)) = N (3, 14.04). Assim: 
Li, = Pr (P, + Pa- 2P > 0) = Pr(X > 0) = Pr (Z > 

Ex. 11 a) Com a notação usual, S7 ~ N (560,700), Ss ~ N (640, 800) e Sg ~ N (720,900). Então 

a- 2) = 1 — NormalDist (2) = 5.8885 x 10720 
TOO 

Loi = 7.7086 x 107° 

im 2) = 3.8303 x 107° 


) = 1 — NormalDist ( 
y 900 


Pr | Z > — 
( ~ vTO0 


800 — 640 
) = 1 — NormalDist ( 
) = 50%. 


Pr(5; > 800) = 
= PrlZ=s 
( ~ 4/800 
Pr (z> 800 — 720 
4 900 


Pr (Ss > 800) 
800—800 
b) Do calculado acima, vê-se que o número máximo é 9 mesmo (probabilidade de exceder a capacidade ainda é 
80 — 8n = 2.3623/n => 8n + 2.3623/n — 80 = 0 > 


1000 


n = 9.1217 


Vn = 3.0202 


Pr (S9 > 800) 
Só para comparar, note que Pr (Sio > 800) = Pr (z > 
menor que 1%). Se quiséssemos este número diretamente, faríamos 
0.99 = a = Normallnv (0.99) = 2.3263 => 


800 — 80n  , 4693 
- /(2.3623)? + 4 (80) (8) 


Pr(Z <a) = 
v100n 
—2.3623 4 


= 


2(8) 


=> 
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Portanto, n = 9 passageiros ainda dá mais do que 99% de chance do elevador aguentar. 
c) Se quisermos que o eleveador suporte n passageiros com p de chance, basta fazer 


C — 80n 
—— = Normallnv = 2, > Č = 80n + v100n NormalInv 
V100n (p) p (p) 


O elevador já aguentava 9 passageiros com 99% de chance. De fato, a capacidade poderia ser reduzida para 
Cy = 80 (9) + v 900 NormalInv (0.99) = 789.79K g 


Se quiséssemos 10 passageiros com 99% de chance, aí sim precisaríamos aumentar para 


C10 = 80 (10) + v 1000 NormalInv (0.99) = 873.565Kg 


E, para 11 e 12 passageiros: 


Cm = 88041100 Normallnv (0.99) = 957.156Kg 
Ci» = 960 + 1200 NormalInv (0.99) = 1040.587Kg 


Note como, para cada passageiro extra, o aumento da capacidade necessária para manter os 99% de confiança é 
um pouco maior do que 80Kg! 
Ex. 12 


E —1 
Pr(X < 9959) = Pr (z< o 


Ou seja, é muito improvável que isto aconteça — é mais verossímil que a empacotadora esteja mentindo. 


) = NormalDist (—3.162) = 7.827 x 1074 


Ex. 13 Sabemos que 


Então 


Ex. 14 a) Seja S o salário de um funcionário. Pelo Teorema de Bayes 


o Pr(S > 610 | H) Pr (H) 
dd E= Pr(S > 610 | H) Pr (H) + Pr(S > 610 | M) Pr (M) 


610 — 600 

“Cm 
G10 — 590 

ET; 


Pr(S > 610 | H) 


Pr(H > 610) = Pr (z ) = Pr (Z > 1) = 15.8655% 


Pr (S > 610 | M) Pr(M > 610) = Pr (z ) = Pr (Z > 2) = 2.2750% 


Enfim, tomando Pr (H) = Pr (M) = 50% (o que é verdadeiro pelo menos dentro da amostra): 


15.8655% 
Pr(H T E can 
r |S > 610) = isan 2278006 O 


b) Como vimos no problema anterior, D = H — M ~ N (10, =E + 120) = N (10,8). Assim 


—1 
Pr(D>0) = Pr (z > i = 1 — NormalDist (—3.536) = 99.9797% 
2-— 10 ; 
Pr(D>2) = Pr (z > 2) = 1 — NormalDist (—2.828) = 99.7661% 


Pr(D > 10) 


Pr (z> Eis =) = 50% 
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c) Se as médias fossem iguais, D ~ N (0,8) e então 


Pr(D>0) = Pr(2> =) = 50% 
Pr(D>2) = Pr (z > =) = 1 — NormalDist (0.7071) = 23.975% 
Pr(D> 10) = Pr (z > 2) = 1 — NormalDist (3.536) = 2.035 x 1074 
Ex. 15 Como 15 são k = 3 desvios-padrão, a desigualdade de Chebyshev diz que 
Pr (35 < Sitoo < 65) > 1— Š = E = 88.89% 


Por outro lado, Sioo ~ Bin (100,0.5), então 
Pr(35 < S100 < 65) = BinomialDist (65; 100, 0.5) — BinomialDist (34; 100, 0.5) = 99.82% 
Ou seja, mais uma vez, a desigualdade de Chebyshev é muito “fraca”. 


Ex. 16 4 desigualdade de Chebyshev garante que, para qualquer k positivo: 


1 
Pr (|X — ul > ko) < % 
E 


Tomando k = = obtemos uma outra versão equivalente da desigualdade: 


Z Var(X) 


= 2 


Pr (|X — u| > £) z 


Neste caso, usaremos esta desigualdade para a v.a. X. Note que E (X) =E(X)= 5 e que Var (X) = Korx) = 
-Ł. Então 
= A 1 
Pr(|X-—- -> <-—— 
( DE 


12n ' 
Em particular, tomando £ = 0.1 e vários valores de n, temos: 


Paran = 100: Pr (jz- ; > 01) < E = Ea 
2 12 (100) (0.1) 12 
= 1 1 1 
Paran = 1000: Pr[|X-5|201)<-—>>>—» 5. = r 
2 12 (1000) (0.1)? 120 
= 1 1 1 
Paran = 10000: Pr[|X— =|>01)< z= 
2 12 (10000) (0.1) 1200 
Ex. 17 Este problema é idêntico ao anterior, mas agora Var(X) = (2h? = A Mesmo assim, usando a nova 


2 


versão de Chebyshev com Var (X) = &: 


n 


_ h2 
Pr((X— u| >e 
HE =a ze) Spe 
Em particular, 
2 2 
Paran = 100: Pr (z- 3| > 01) < h z= h 
2 3 (100) (0.1) 3 
2 2 
Paran = 1000: Pr (z- 5 > o) < E: sr 
2 3 (1000) (0.1)* 30 
2 2 
Paran = 10000: Pr (x- 3| > 04) < h z= i 
2 3 (10000) (0.1)? 300 
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Ex. 18 Tomando h = 1 e £ = 0.1 no problema anterior, temos: 


Para garantir que esta probabilidade é menor que 5%, devemos tomar 


w <0.05>n> sm = 666.06... 
3n 3 


ou seja, pelo menos 667 amostras. Se quisermos ao invés € = 0.01, então 


10000 z 200000 
3 


< 0.05 => n = 66666.66... 


ou seja, apenas com as ferramentas que estamos utilizando, parece que precisamos de n = 66667 amostras (mais 
tarde veremos como usar o TCL para diminuir estes números de amostras). 


Ex. 19 Chebyshev diz que 


1 
Pr(|X -p| < ko) > 1- 73 


No caso em questão, tudo está pronto, pois u=0 eo = 1: 


1 
Pr(|X| <k) >21- 5 


Basta então garantir que 1 — — > 99%, isto é, k = 10. Assim, Chebyshev garante que pelo menos 99% da 
probabilidade de uma distribuição está a menos de 10 desvios-padrão de sua média. 
No caso normal, teríamos Z = X ~ N (0,1), então: 


Pr(-k < Z < k) = 99% = k = Normallnv (0.995) = 2.5756 
Ou seja, 2.5756 desvios-padrão já seriam suficientes. 


Ex. 20 Note que X ~ Be(p). Usemos Chebyshev, lembrando que 


B(Ž) = E(X)=p 
Var (X) Var(X) -P4 
n n 
Então (2) 
= Var (X pq 
dan a = 
Como pq = p (1 — p) assume valor máximo quando p = 3: 
E p(l=m) A 
Pr (|Æ -p| 2 É q 


Em particular, para ter 95% de certeza de que Pr (|X = p| < 0.1), basta tomar 


1 


— 5 =0.05 > n = 500 
4n (0.1) 


ou seja, tome 500 amostras de X ~ Be (p) e a média destes 500 valores estará a 0.1 ou menos do valor real de p 
com pelo menos 95% de confiança. 


Ex. 21 A distribuição conjunta de Xı e Xə é 


1 1 1 
T2? 1+r? 1+? 


f (£1, x2) = 


65 


Tomando X = “LX e W = dido. temos Xı = X +W e Xə = X — W. Portanto 
2 2 


ð (X1, X2) | 1 1 | 
—— | = = 2 
ð (X, W) 1-1 
e a densidade conjunta de X e W será 
2 1 1 
f(a,w) = 


T? 1+ (£+w) 1+ (x-w)’ 


Agora é só integrar com relação a w para encontrar a marginal de X. A conta é muito feia, mas um Sistema 
Computacional Algébrico ajuda: 


e 2 1 1 1 
f(x) = J dw = 
(=) -œ T? 1+ (x +w)? 1+ (£- w)? T (1+2?) 
que, surpreendentemente, é uma distribuição de Cauchy! Analogamente, se tomarmos a média de 4 variáveis com 


distribuição de Cauchy: 


= tX n Yi + Y: Xi +X2 +X +X. 5 
naasma a = ETA ia 
T 2 


2 4 


Analogamente, por indução, é fácil ver que a média de n = 2" variáveis de Cauchy também será uma variável 
com distribuição de Cauchy. Assim, E 
Pr (|X| < £) = Pr (|X| < £) 


não se aproxima de O à medida que n cresce! 
Ex. 22 Note que S100 ~ Bin (100,0.5), com E (9100) = 50 e Var (9400) = 25. Usando a aproximação normal: 


34.5 — 50 65.5 — 50 
Pr (35 < S100 < 65) = Pr (EE <Z< s3) = NormalDist (3.1) — NormalDist (—3.1) = 99.806% 


enquanto a resposta exata é 

Pr(35 < S100 < 65) = BinomialDist (65; 100, 0.5) — BinomialDist (34; 100, 0.5) = 99.82% 
Ex. 23 Sabemos que E (X) =0.5eVar (X) z — = — Usando uma aproximação normal Z = 1200 (X = 0.5) ~ 
N (0,1): 


E i 
Pr (|X — 0.5| > 0.1) ~ Pr [12 qe = 2 NormalDist (-2V3) = 5.3201 x 1074 


1200 
que é razoavelmente próxima da probabilidade exata de 5.0131 x 1074. 


Ex. 24 a) Pelo TCL, a distribuição de X será aproximadamente normal 


ou, normalizando, Z = v 3n (X — u) = N (0,1). Mas 
Pr (|Z| < a) = 0.95 > a = NormalInv (0.975) = 1.9600 


Este intervalo deve corresponder a |X = p| < £= 0.1, isto é 


Pr (|Æ — ul < 0.1) = Pr (12| < 0.137) = 0.95 = 1.9600 = 0.13n = n = 128.05333 


Assim, n = 129 amostras seriam suficientes! 
b) Basta trocar e = 0.1 por e = 0.01 no raciocínio acima (o 1.9600 se mantém): 


1.9600\ ° 1 
z = = 12805.33 
ú ( 0.01 ) 3 


Assim, bastam 12806 amostras para obter u com margem de erro de 0.01 (com 95% de confiança). 
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Ex. 25 a) Cada eleitor é uma variável de Bernoulli X ~ Be(p). A proporção de eleitores na amostra será 
X= Eid Pelo TCL, a distribuição de X é praticamente normal: 


XEN Q Pn 
n 
Para obter 95% de confiança (que é o utilizado quando se fala em “margem de erro”), precisamos tomar zo.95 = 
1.9600 desvios-padrão ao redor da média, isto é 


pr (p p — 1.9600, [EE < <X< < p+ 19600/2E) = 95% 


A margem de erro (para 95% de confiança) é, portanto 


e = 1.9600, / 2 
n 


Sem saber o valor de p, não podemos saber € exatamente. No entanto, note que o valor máximo de pq é i (quando 
p= 5). Assim, uma estimativa “conservadora” é: 


0.98 
vn 
No caso, temos n = 1500, então a margem de erro (conservadora) é 


0.98 


E = 


E= = 0.0253 
v 1500 
ou seja, de uns 2.5 pontos percentuais. 
b) Queremos £ = 0.005. Então devemos tomar 
0.98 0.98 \ ? 
= 0.005 = = 38416 
Jn n (E) 


ou seja, quase 40000 entrevistados! Talvez seja melhor declarar o empate técnico mesmo... 


Ex. 26 Este não é um problema de distribuição normal — é um problema sobre distribuição binomial. Afinal, 
a probabilidade de o instituto acertar a porcentagem é de 0.95 em cada estado. Supondo que os estados são 
independentes entre si, o número de estados (mais DF) em que o instituto vai acertar é 


X ~ Bin(27,0.95) 
Assim 


r(X <24) = BinomialDist (24; 27, 0.95) = 15.049% 
r(X <22) = BinomialDist (22; 27, 0.95) = 1.002% 
Ou seja, é perfeitamente imaginável que este instituto acerte menos de 24 estados, e improvável (mas possível) 


que erre em 5 ou mais estados. 
Nota: se você desejar usar uma aproximação normal à binomial: 


Pr(X <24) x Pr|Z< ZAS aue = NormalDist (—1.015) = 15.49% 
27 (0.95) (0.05) 

Pr( X <22 = Pr|[Z< SANLA e NormalDist (—2.782) = 0.2705% 
27 (0.95) (0.05) 


Note como a primeira aproximação é razoável, enquanto a segunda é um tanto ruim. Como n = 27 é pequeno, 
não esperávamos aproximações muito boas mesmo! 


Ex. 27 Seja X o número de seis obtidos. Sabemos que X ~ Bin (30, 5). A probabilidade exata é 


5 25 
1 1 
Pr(X = 5) = BinomialDen E 30, :) = (5) (5) (5) = 19.211% 


enquanto a aproximação normal por áreas nos dá 


= 2 NormalDist (0.245) — 1 = 19.354% 


Nada mal, considerando que n = 30 nem é tão grande assim. 
Nota: neste caso, poderíamos dispensar o uso da tabela usando a aproximação pontual 


= 19.544% 


5—5 
IN? (=) 1a 
Pr(X = 5) = BinomialDen | 5:30, z = 
i ) ( 5) vnpq v2m J2 


Ex. 28 a) O número de questões que ele acerta é X ~ Bin (50,0.5). Usando a aproximação normal: 


= 2 E 
Pr(X >40) = Pr|[Z> e = 1 — NormalDist (4.101) = 2.055 x 107” 
„50 0.5) (0.5) 
29.5—2 
Pr(X > 30) = Pr|zZz> o. 1 — NormalDist (1.273) = 10.155% 
50 (0.5) (0.5) 


Compare com as respostas exatas: 


Pr(X >40) = 1 — BinomialDist (39;50, 0.5) = 1.193 x 107º 
Pr(X >30) = 1 — BinomialDist (29; 50, 0.5) = 10.132% 


67 


b) O número de estudantes que acerta 40 ou mais questões é Y ~ Bin (100, p) onde p é a probabilidade calculada 


acima. Assim, a probabilidade exata é 
E = 100 . E . 100 =8 
Pr(Y 0)=1-(1-9)” =1 — BinomialDist (39;50,0.5) — = 1.1923 x 10 
Uma aproximação seria usar a aproximação de p do item anterior 
Pr(Y #0) =1-— (1 — p) x 1 — (NormalDist (4.101))!ºº = 2.053 x 1073 


que tem a mesma ordem de grandeza, mas é bem diferente... 
c) Com 5 alternativas, temos X ~ Bin (50,0.2). A aproximação normal dá as probabilidades microscópicas: 


39.5 — 10 
„/50 (0.2) (0.8) 
29.5 — 10 


„/50 (0.2) (0.8) 


Pr(X >40) = Pr (z = = 1 — NormalDist (10.430) = 9.061 x 102 


Pr(X >30) = Pr (z > ) = 1 — NormalDist (6.894) = 2.707 x 10712 


Compare com as respostas “exatas”: 


Pr(X >40) = 1 — BinomialDist (39; 50, 0.2) = 1.291 x 1071º 
Pr(X >30) = 1 — BinomialDist (29;50,0.2) = 6.937 x 10710 


Note como a aproximação normal erra até a ordem de grandeza nestes casos extremos! 
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Ex. 29 O número de cartas que o paranormal acerta é X ~ Bin (10,0.2). Sabemos que a resposta correta é 


10 
Pr (X > 8) = 5 BinomialDen (i; 10, 0.2) = 7.793 x 107º 
1=8 


enquanto a aproximação normal nos daria 


15-2 


Mazs- (2 m 
10 (0.2) (0.8) 


) = 1 — NormalDist (4.348) = 6.865 x 1078 


ou seja, nem a ordem de grandeza está correta (note que n = 10 é pequeno demais, e, ainda por cima, trata-se 
de um caso extremo). 


Ex. 30 O número de folhetos é X ~ Bin (10000, 5000) - As respostas exatas são 


1999) 10000 
PRA = = Bi ialD 1 — —— = 0.6730 
r( 0) inomialDen (o 0000, sm) = (000) % 
1 10000 1 Nº /1999\ °% 
Pi( X = = Bi ialD 1 = 17.551 
r( 5) inomialDen (5, 0000, z5) = ( 5 ) (z) (000) % 
1 10000 1º (1999) 
o id E. pd = 1.812 
Pr (X = 10) BinomialDen (10 10000, z5) = ( 10 ) (z) (00) 812% 
A aproximação normal pontual dá 
0— 
Pr(X=0) = do ) (2898 ) E dorme 6272) — 1.463% 
1999 ; 
10000 (5555) (2000) 
(msi EEE 5) 1 1 
Pr(X=5) = = = 17.846% 
(1298) 1999 
10000 ( (m0) (2000) 10000 (z555) (5000) 
í ( — NormalDen (2.236 627 2) 
Pr(X=10) = = EAT = 1.463% 
1 1999 . 
10000 (5500) (5500) 


Novamente, apesar de o n = 10000 ser bem grande, a aproximação pontual falha nos casos extremos (longe da 
média). Já a aproximação por áreas dá: 


0.5 —5 —0.5 — 5 
Pr(X =0) = NormalDist — NormalDist | —=— ) = 1.512% 
o (mm) fa 
Pr(X =5) = NormalDist (= — 5) - NormalDist (= >) - 17.698% 
vnpq 
10.5 — 
Pr(X =10) = NormalDist ( Ee 5) - NormalDist (= E 5) = 1.512% 
Jira VI 


Ex. 31 a) Seja X ~ N (500,100) o peso de um pacote. Então 


490 — 500 


Pr(X <490)=Pr/Z< 
r(X < 490) ( T 


)- Pr(Z < —1) = 15.866% 
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b) Temos X ~ N (500, 100) Normalizando, Z = nZ% deve satisfazer 


E 495 — 500 
Pr(X >495) = 0.99=Pr (z < wE) =0.01 > 


10 
By 


> -i 


= Normallnv (0.01) = —2.326 => n = 21.648 
Ou seja, para que a probabilidade de não levar multa seja 99%, você precisa de que o fiscal amostre pelo menos 
22 pacotes. 
c) Queremos 
Pr (Z < 20.01) = 0.01 => 2901 = Normallnv (0.01) = —2.326 


Mas lembremos que 


Xx-p 490 — p 
DE ==> = 
o 7an 10 


= p = 490 — 1020.01 = 490 + 23.26 = 513.269 
Ou seja, a máquina deveria ser ajustada para uma média p de 513.26 gramas. 
Ex. 32 a) A cada giro, o prêmio é X ~ U [0,100]. Assim, E (X) =50 e Var (X) = ank Portanto: 


E (S2) = 24E (X) = $1200 
Var (S24) 24Var (X) = 20000 ($)? 


b) Encontrar a distribuição exata de S24 é muito difícil. Ao invés, vamos usar uma aproximação normal: 
S24 ~ N (1200, 20000) 


Então 


1400 — 12 
00 L A 


Pr (S24 > 1400) = Pr (z > ) = Pr (Z > 1.4142) = 7.865% 


~= „/20000 
Ex. 33 a) Seja X um resultado. Temos que X ~ U [0,10], então E (X) = 5 e Var (X) = w, Então: 
E(Sn) = nE(X)=5n 


Var (Sn) = nVar(X) = o 


b) Como é difícil encontrar a distribuição exata de Sn, vamos usar uma aproximação normal (garantida pelo 
TCL). Assim: 
Sus aN (240, 400) e Ss4 a N (270, 450) 


Portanto 
270 — 24 
Pr (240 < Sas < 270) = Pr (o <Z< SL, =Pr(0<Z< 1.5)=õ0.4332 
y 400 
240 — 2 
Pr(240< S54 < 270) = Pr Po SAS o) = Pr (—1.414 < Z < 0) = 0.4214 
yv 450 


Nem era necessário consultar a tabela — pela simetria da distribuição normal, a probabilidade de cima é maior 
pois 1.5 > V2 = 1.414. Assim, é melhor rodar a roleta 48 vezes apenas (a diferença no valor esperado do prêmio 
é de 100 (0.4332 — 0.4214) = $1.18). 

c) Temos ainda mais razão para acreditar que rodar menos é melhor! Apenas para confirmar, vejamos o valor 
esperado do lucro em cada opção: 


Rodando 48 vezes : E(L) = 100 (0.4332) — (0.5) (48) = 19.32 
Rodando 54 vezes : E(L) = 100 (0.4214) — (0.5) (54) = 15.14 


Então a primeira opção é uns $4 melhor que a segunda agora! 
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Ex. 34 a) Cada dia é uma prova de Bernoulli com probabilidade de sucesso (ação subir) 70%. Assim, Z ~ 
Bin (90, 0.7). 
b) O lucro é 

L = 2Z — 4 (90 — Z) = 62 — 360 


Assim, seu valor esperado é 
E (L) = E (6Z — 360) = 6E (Z) — 360 = 6 (90) (0.7) — 360 = $18 


c) Temos 


41 
Pr (L > 50) = Pr (6Z — 360 > 50) = Pr (z > 2) = Pr (Z > 68.33) = Pr (Z > 69) 


Usando a aproximação normal à binomial, temos: 
Pr(Z >69)= / q (x) de = 1 — NormalDist (1.265) = 10.29% 


ont — _ 68.5-63 _— 
pois a* = DONO 1.265. 


Observação: a resposta exata é 


Pr (Z > 69) = 1 — BinomialDist (68; 90, 0.7) = 10.10% 


Chapter 8 


Respostas do Capítulo 8 


Ex. 1 Sejjag=1-p. 

a) E (f1) = E (X3) =p e Var (di) = Var (X3) = pq. Assim, EQM (pr) = pq. 
b) E (po) = E (X) =peVar(po) = Var (X) = É. Assim, EQM (po) = E. 
c) Como os X; são O ou 1, a distribuição de z só assume três valores: 


Pr (da = 0) Pr(X, =X,=..=X=0)=q" 
Pr(óa=1) = Pr(X =X =.=X=D=p” 


1 
Pr(da=5)=1 p"— q" 


Em qualquer outro caso, p3 = >. Então: 


Assim 
a 1 — p” — q” 1+p”-—q” 
E — n 
(Da) 5 p 7 
; IE p” a q” J 3p” = q” 
E 2 = m a 
(p5) r p Fi 
l , ) 2 | i aa 
, 1+3p" — q" 1+p- q" p +g = (p° — q”) 
V i = —— — — >> — ÅÃÁ— 
ar (3) 4 2 4 
Portanto 


p +g- (p — g) 
4 


1+p- q” 
3 P 


EQM (fs) = Viés (ps) + Var (Pa) = ( 


Conclusão: pi e po são não-tendenciosos, mas pa tem viés (a menos, é claro, que p = 0.5, mas se soubéssemos disto 
não precisaríamos de estimadores). Dentre os dois primeiros, claramente pa é mais eficiente (menor variância); 
em geral, para n grande, pz será mais eficiente ainda (pois p” vai para O mais rápido do que EE), mas, como ps 
“mira no lugar errado”, isto é inútil. De fato, a menos que p = 0.5, note que o viés de P3 não se aproxima de 
0 quando n > oo: 


1 nman 1 
im B= im E 
n= n= 2 


Assim, para n grande 


EQM (da) < EQM (fı) < EQM (ds) 


pois os dois primeiros se aproximam de 0. 


d) Note que da = EnSês, Assim 


_ E(Sn) -2E (fs) _ np- U+p"— q") 


n—2 n—2 


E (da) 
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A variância de pq é horrível de calcular 


tido E (ue (EAV er = Aos) 


As variâncias estão feitas, mas a covariância tem de ser feita no braço. Note que 


D3 = 06 Sn =0 
Pa = 16 Sa =f 
1 
fs = 3# SE {1,2 nn- 1} 
Então 
n—1 1 
E (Sns) = D Ki Pr (Sn = k; Ĥs = j) =0+ X k3 Pr (Sn = k) +n Pr (Sp = n) = 
kj k=1 
— E(Sn) n o n o np np 
= a ea toa 
Portanto 


F ” é np + np” d+ No an np” = +n n n = 5 
Cow (Sns2s) = E (Snôs)- E (Sn) E (Pa) = PETR" np HP Doo PTP) Enpi nba (gra y qr) 


Enfim 


mit a no an m=1 n=? 
npa A a(z +4 G q”) ) Anpa (2 E ) 
m 


Só vale a pena ver o que acontece quando n — œ. Neste caso, os termos em p” e q” rapidamente se aproximam 
de 0, e então 


Var (da) = 


npq 
3 
(n -= 2) 
que é uma variância maior do que a de po. Assim, po é mais eficiente e não tem viés; quando n — œ, Po terá 
um EQM menor do que pa. 


Var (ba) = 


Ex. 2 Sua resposta dependerá do critério que você decidir usar. Por exemplo, como 
E(d:)=0eE(d,)=0-1 

então dy é não-tendencioso, enquanto ĝa tem um viés de —1. Por outro lado, note que 
Var (a) = 25 e Var (ĝa) =4 

então d» é mais eficiente (apesar de mirar no lugar errado). Por fim, poderíamos comparar os EQM: 


EQM (1) = 0 +25=25 


EQM (9) = 1?+4=5 


Por este critério, 0» (apesar de tendencioso) é melhor. 


Ex. 3 a) Como 
E (T) = aE (01) + bE (02) = (a +0)0 


para que T seja não-tendencioso, precisamos tomar a + b = 1 (a menos, é claro, que O = 0, mas se soubéssemos 
disto, porque procurar estimadores de 0%). 
b) Temos 


Var(T)= a° Var (d1) +b Var (9) + 2abC ov (à, ô>) 
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Como a +b = 1, temos 
Var (T) = a? Var (01) +(1-a)2 Var (02) + 2a (1 — a) Cov (ô, ô>) 
Isto é uma função quadrática em a, cujo mínimo será atingido quando 
Var (82) — Cov (à, ô) 
Var (1) + Var (02) - 2Cov (01, 0.) 


Dividindo numerador e denominador por o, = 4| Var (81) e o2 =4|/Var (3) š 


ga — Ejs 
= o P o oa P 


PL a aL be 
o2 Ta P p 


02 o1 


a= 


mostrando que a resposta depende apenas da correlação e da razão entre as variâncias de ambos os estimadores. 
Sem saber mais, é impossível terminar o problema; por outro lado, se supusermos que p = O (por exemplo, se os 
estimadores forem independentes): 


Var (82) 1 2 
a= - — =- eb= 
Var (01) + Var (03) 3 3 
Ou seja, é preferível montar o estimador 
1. 2. 
T==0,+50 
pao 


Ex. 4 a) Sabemos que E (X) = E (X) = À (sem viés) e Var (X) = Var(X) = à. Assim: 
nba A 
EQM (X;À) = — 
n 


b) Sabemos que E (92) = 02 = À (sem viés) e 


(92) CDu- (n=80! (no 1(A+38)-(n 3a? 2 A 
im RM Ga 


Assim, 


2 
EQM (9°; A) = 2 + A 7 


c) Como ambos são não-viesados mas S? tem variância maior, então não há dúvida: X é melhor do que S2. 


1 3 971 
1 2 
B= | o(aæ+}) do (Z =% 
- =i 


3x para o parâmetro a. De fato: 


Ex. 5 Temos 


Assim, a = 3E), Isto sugere o uso do estimador à = 
3E (X E(X 


A variância deste estimador é 
n 9 z 9 Var(X) 
Var (â) = qVar (X) E q 
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Onde 


tm 
ÉS 
N 
Sm 

| 
EE 

R 
N 
RT 

Q 

8 

+ 
N| = 
Sat 
a 

8 

Il 
AT 
Q 
AJR 
E 
v O &, 
| EE | 
| to 

pá 

II 

js 


Juntando tudo 


Note que à é consistente (pois é não-viesado e Var (à) > 0 quando n > 00). 


Ex. 6 Como E(X) = E(X) = a, o estimador é não-viesado. Como Var (X) = Kar) = dar — 0 quando 
n — œ, então X é consistente. Enfim 


EQM (X) Var) = 
3n 
Ex. 7 a) Note que (para 0 < m < a): 
Pr(M <m) = Pr(max(X1, Xz, -3 Xa) < 2m) = Pr (Xi < 2m e Xa <2m...e Xn < 2m) = 


= Pr(X, < 2m) Pr(Xa <2m)...Pr(X, < 2m) = (=) 
a 


Assim, a acumulada de M é 


m” 


F(m)= 


ar 
e a densidade é obtida derivando com relação a m: 


n—1 
ar - sel<m<a 
f (m) = a -epg 
0, caso contrário 


Portanto 


a n—1 n+17M=a 
E(m)= f mL dm = (= =— 
(0) a a n+1 m=0 
a 


ou seja, M é viesado com viés Viés(M) = — Por outro lado 


n+l’ 
a n—1 n+27M=a 
EM) = [mr qm=(O = —— a 
0 n aP n+t2lm-o n+2 
2 2 
Var (M) = E a? ( n a) = PE 
n+2 n+1 (n+ 2) (n + 1) 
Como tanto o viés como a variância têm limite O quando n — œ, o estimador M é consistente. O EQM é 
2 2 2 
a na 2a 
EQM (M;a) = ( ) | = 
Miolo) T ara REDGI 


b) Para consertar o viés de M, podemos tomar 


1 
M = mM 
então 
no = Ella 
n na4l 
n+1 É a2 
Var (M>) = Var (M) = 
mm = (O ven ia) 


To 


O novo EQM é 


a2 


(n + 1) (n + 2) 
Como a variância de Mo tem limite O quando n > œ (e Mo não tem viés), então Ma é consistente. 
c) Comparando Mə com X, note que ambos não têm viés, mas Mə é mais eficiente, pois 


EQM (M5;a) = Var (M2) = 


2 2 
a < S = Var (X) 


VaM = F ar In 


já quen+1I>nen+2> 3, por exemplo. 
Já a briga entre M e Ms é boa — Mo tem menor variância, mas mira no lugar errado (tem viés). Usando o EQM 
para decidir, vê-se que 


a? 24? 


n 
(n+1)(n+2) ~ (n+1)(n+2) 
ou seja, o EQM de Mo é a metade do EQM de M. Ficamos com Ms! 


EQM (Mz;a) = = EQM (M; a) 


Ex. 8 a) Seja p = I, Então lembrando a função de probabilidade de X ~ NegBin (r, p): 


E r—i X r-1 X r—1 /r-1 PE 
E() = P(r) Epara prh = 


T=—r 


= (25) q" =p 3 (1 ) rig) =p Ss Pr(Y =y) 


y=r-1 


onde estamos inventando a variável Y ~ NegBin(r — 1,p). Como o somatório abrange todas as possibilidades 
de valores de Y, aquela soma de probabilidades dá 1. Assim: 


E (b) = 


ou seja, Ð é não-viesado. 
mpi a E - - = ny sA — 5-1 1 = 5 
b) No primeiro caso, r = 5 e X = 13. Nossa estimativa não-viesada é p = 1 = 3 (e não 7 como alguns 


diriam). Na segunda experiência, r = 5 e X = 10, então nossa estimativa não-viesada é p = $ (e não é 
50%). Para que a estimativa fosse p = 50%, deveríamos ter X = 9, isto é, p = =. Uma tal segiência seria 
CKCKCKCKK. 


Ex. 9 Sabemos que E (X) = E (X) = L e Var (X) = Var(X) = z 
Quanto ao segundo estimador, note que 


E (G) = E (VX:X2) = E (VX) £ (V) 
pois Xı e Xə são independentes. Agora: 
E (vX) = T VTÃe da = IN da 
0 0 


onde tomamos u = Ax. Enfim: 


2) ya 
e então z 
E Da 
A variância de G é mais fácil: 
1 
E(@) = E(XıXə)= E(X) E (Xə) = 5 > 


> væ(@=53-(5) (1 (9) 
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Agora vamos comparar X com G: 
5 1 T 
(X) =u =5 eE(G)=qu 
Assim, X tem menos viés, enquanto G tem um pequeno viés negativo de 
Viés (G; u) = (5 — 1) u 
Quanto às variâncias, 
Var (X) = Es eVar(G) = [1- Ei ES 
ny o 4) J x 


Como 1 — esa = 0.383 < 0.5, G é mais eficiente! 


Enfim 
5 1 T 2 1 T\?2\ 1 4— 7 
EQM (X) = => EQM (G) = (5-1) 5 1- (5) e a 
RAE ad ze 4) )X 2x 
Como —— x 0.4292 < 0.5, pelo critério do EQM a média geométrica G é um estimador melhor! 


Ex. 10 De fato 
E((X-p’)=0 


Então 
Eu) otro? z 
EY)= S 7/7- Oo SEIOS sas EO = 
n n 
então Y não tem viés. Por outro lado, como Xi — H, X2 — H, ..., Xn — u são independentes, temos 
n 2 2 4 27? 
Var (Da (X-a) Var(X =?) E(X -mt)- [e (x) 
Var(Y) = ——— ~ s =D = 
n n n 

CW o! 

= n 
Assim 

gt 


EQM (Y; 0?) = #2 
n 
Em particular, se X é normal, sabemos que uy = 204. Assim: 
o! 
EQM (Y;0º) = — 
n 
Ex. 11 Feito no texto. 
Ex. 12 Feito no teato. 
Ex. 13 Sejam Zı = ar e Za = 2. Então Zı ~ N (0,1) e Z2 ~ N (0,1). Assim: 


Xi X 


Pr (XP +X? <o?) = Pr (ZE + <1) = Pr (Z? + Z2 < 1) 


o2 — 


Mas, como Zı e Z2 são normais-padrão independentes, Y = Z? + Z2 é qui-quadrado com 2 graus de liberdade 
(veja o exercício anterior). Assim: 


Pr (X? + X < o?) = Pr (Y < 1) = ChiSquareDist (1; 2) = 39.347% 


Ex. 14 E só ler a tabela na linha n = 5 graus de liberdade, fazendo as interpolações necessárias. Com o auxílio 
de um computador, é possível conseguir uma resposta mais exata: 


Pr(2< X < 4) = ChiSquareDist (4;5) — ChiSquareDist (2; 5) = 45.058% — 15.085% = 29.973% 


TT 


Ex. 15 Como retiramos 1 amostras, sabemos que 


n — 1) S? 99? 
Uva) 


Assim, da tabela ou do computador, 
Pr (S° < 10) = ChiSquareDist (10;9) = 64.951% 
O outro valor sai da tabela mais fácil, sem interpolação: 
Pr (S? < a) = 0.05 = a = ChiSquarelny (0.05; 9) = 3.3251 
(na tabela, 3.33). 
Ex. 16 É só lhar na tabela ou usar um computador para ter mais precisão. A resposta é 


P; = ChiSquarelnv (0.05;10) = 3.9403 
Pos = ChiSquarelnv (0.95; 10) = 18.307 


Ex. 17 Usando Z = V2Y — v2n — 1=v2Y — 9, temos 


Pr(Y >50) = Pr ( V260) - 9) = Pr (Z > 1) = 1 — NormalDist (1) = 15.866% 


Z> 
Pr(Y <18) = Pr (z < y2 (18) — 9) = Pr (Z < —3) = NormalDist (—3) = 0.1350% 


Compare-os com os valores exatos: 
Pr(Y > 50) = 1-— ChiSquareDist (50;41) = 15.824% 
Pr(Y <18) = ChiSquareDist (18; 41) = 0.06848% 


Como na aproximação normal à binomial, note que as aproximações são muito melhores em casos não-extremos. 
Enfim, usando aproximação normal: 


Pr(Z > a) = 5% => a = Normallnv (0.95) = 1.6449 > v'2b — 9 = 1.6449 = b = 56.656 


Isto é, 
Pr(Y > 56.656) = 0.05 


Compare com a resposta exata 
ChiSquarelnv (0.95; 41) = 56.942 


Ex. 18 Se X ~ t(n), pela definição da distribuição t de Student podemos escrever X = Toa onde Z ~ N (0,1) 


e Y ~ x? (n) são independentes. Então X? = — onde Z? ~ x? (1) e Y ~ x? (n) são independentes. Assim, 
pela definição da distribuição F: 

Zi xL 

Y/n xe(n)/n 


Ex. 19 Pr(X < 4) = FDist (4; 5,2) = 78.80%. 


Ex. 20 Pr(X > 2) = 1 — TDist (2; 5) = 5.097%. 
Ex. 21 Para F (3,5), os percentis são 
a = FInv (0.05, 3,5) = 0.1109 e b = FInv (0.95; 3,5) = 5.409 


enquanto para F (5,3), os percentis são os inversos (trocando a ordem): 


1 1 
FInv (0.05, 5,3) = 0.185 = ze FInv (0.95, 5,3) = 9.013 = E 
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Ex. 22 Temos 
Po.05 = Tiny (0.05, 5) = —2.015 
Po.95 = TlInv (0.95, 5) = 2.015 
Pela simetria da distribuição t de Student, sabemos que Po.o5 = —Po.95. 


Ex. 23 A densidade de F (m,n) é feia 
T (tn) m™/2n”/2 g™m/2)-1 
PrE em 


mas apenas a parte final depende de x. Assim, um ponto crítico de f será um ponto onde a derivada de 


f (2) = 


g™/2)- 1 
(n + ma) (m+n)/2 


se anula. Mas 


ou seja, o ponto crítico satisfaz 
(5 o 1) g™/2)-2, (n ER ma) (m+n)/2 o g™/2)-1, (= = z) (n + mg)®™t™)/2-1 mes 


= = 2 
a(m/D-2 (n + mg) t) (2 ) (n+mz)-— z (==) m) =0> 


n m—? 
n+2 m 


>-me(n+9)+n(m-29)=0>27= 


que será a moda desta distribuição sem > 3 de fato, note que o sinal da derivada muda de + para — neste ponto). 
Caso m < 2, note que a fração tem o sinal do termo da esquerda, isto é, de 


n(m- 2)-m(n+2)z 
que é negativo para x > 0 (pois m,n > 0). Assim, a função f (x) será decrescente e, portanto, x = O será a moda. 


Ex. 24 a) Como X e 9? são independentes, a probabilidade condicional é simplesmente 


Pr (X > u +20) = Pr (v5 Es am = Pr (Z > 215) = 1 — NormalDist (7.746) = 4.743 x 101º 


b) Agora devemos usar a variável T = t (14): 


Ras 


Pr (X — u > 285) = > 2vT5) = Pr (T > 2vT5) = 1 — TDist (7.746; 14) = 9.948 x 1077 


"(so 


c) Usamos T novamente: 


Pr(X-u>aS)=P (SS 


d) Novamente, usamos T e a simetria de sua distribuição: 


>av1 5) 0.95 > av'15 = TInv (0.05; 14) = —1.761 > a = —0.455 


Pr (—bS < X — u < b5) = 0.95 = Pr(-5V15 < T <bVI5) = 0.95 = bV15 = TInv (0.975; 14) = b = 0.554 


Portanto, o o 
u € [X-— 0.5545, X + 0.5545] 


com 95% de confiança (ao tomarmos 15 amostras). 
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Ex. 25 Sabemos que 


Como estamos supondo oy = 20x, temos 


Sy S2 o? o 
X Z 9Y s É oS 
Assim 


1 1 
Pr (Sx > Sy) =Pr (r < à) = FDist (a 6, 14) = 4.875% 


Ou seja, é improvável que Sx > Sy (afinal a variância de Y é o dobro da variância de X), mas ainda assim é 
possível que isto aconteça. 


Ex. 26 a) A densidade de Y é 


n—1 
ny O<y<a 
=P o w para O < y < 
f (y) (y) f 0, caso contrário 


Assim 
a n—1 n+174 
ny n /y n 
Z f “ar = (a. ntl” 
a n—1 n+2 7°% i 
E y2 — 2ny dy = n y = n 2 
( ) f» ar ” a” An +21, n+2º 
2 
Var(W=E(Y)-(EMW)P = — a? (=) - z a? 
E a T 
b) Note que 
1 
Eid p= 
n 
Portanto, Z é não-viesado, isto é, Viés (Z) = 0. 
Por outro lado 5 
il 
EQM (Z;a) = Var (Z) + (Viés(Z))? = Var (= r) =— a z 
c) Sim. Note que 
lim E (Y) = lim a=a e lim Var(Y)= lim — e =0 
n>00 n>o0 n + 1 n>00 n> 00 (n + 1) (n di 2) 
2 
lim E(Z)= lim a=a e lim Var(Z) = lim z =0 
n— oo n= n>o00 n>o00 n (n + 2) 


Ex. 27 Sen = 2, a densidade de x? (n) é dada por 
f (8) = Ke"? 


(onde K não depende de t) que é uma função decrescente, então a moda é t = 0. 
Caso contrário, a distribuição x? (n) tem densidade dada por 


JO) = Kt? deve 


Para maximizar f (t), basta derivar e igualar a O: 


n la 
T (t) = K (G — 1) tł-2e7t/2 — TE nes 


n t\ a 
1) 2-2 —t/2 — 
(G 5) ta "te 0 
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-t/2 


Agora, sen > 2, então t = O certamente não é a moda, pois ali teríamos f (0) = 0 Como e > 0, só nos resta 


a opção 
(5 1) Sen 
2 2 


que deve ser a moda de x? (n). Note que esta fórmula vale até mesmo no caso n = 2. 

Obs.: Tecnicamente, ainda temos que provar que este é um máximo local de f (t); no entanto, como f (0) = 0; 
lim;soo f (t) = 0 e f (t) > 0 para todo t € (0,00), e f é contínua, então f deve ter um máximo em (0,00). Como 
o único candidato é t = n — 2, esta deve ser a moda. 


Ex. 28 a) Sabemos que 
o (n-1)? 99 


Y = ny 
-z ~X (9) 
di 9 (163.16 
Pr (S? < 163.16) = Pr (7 < o) = ChiSquareDist (14.6844; 9) = 90.00% 
b) Temos 
9 
To = ChiSquarelnv (0.05;9) = 3.325 > a = 36.946 
9b 
mo ~ ChiSquareInv (0.95;9) = 16.919 = b = 187.989 
c) Agora precisamos usar a variável o 
X-u 
T= ~t(9 
S/v10 (9) 


Assim, lembrando que a distribuição t é simétrica 


Pr (|X — u| < cS) = Pr (im) < evT0) 90% => cv10 = TInv (0.95;9) = 1.833 > c = 0.580 


Ex. 29 a) Seja Z = ELO Então Z ~ N (0,1), e da tabela 


), 
1000 — 1005 
Ed M 


Pr (X < 1000) = Pr (z m 


) = Pr (Z < —0.5) = NormalDist (—0.5) = 30.854% 


b) Sabemos que Sg = D X; tem distribuição N (9u, 90°). Assim, tomando Z = 5979045 ~ N (0,1), temos 


9000 — 9045 
x E 


P =Pr(Z 
r (Sg < 9000) I ( 30 


) = Pr(Z < —1.5) = NormalDist (—1.5) = 6.681% 


Alternativa: use X ~ N (1005, 1), Então Z = Z5 e 


E —5 
Pr (S < 9000) = Pr (X < 1000) = Pr (z < E) = Pr (Z < —1.5) = 6.681% 
c) Sabemos que Ea ~ x? (8). Então 
7 8.5? , , 
Pr (97 = 100) = Pr 100 > 8) = 1 — ChiSquareDist (8; 8) = 43.35% 


Observação: interpolação linear a partir da tabela (que tem apenas os valores correspondentes a 50% e 30%) nos 
dá 43.982%. 
_ j B 
d) Sabemos que X ~ N (n, z). Então Z = 32 ~ N (0,1) e, portanto 
Pr (|X — u| > 0.50) = Pr (|Z| > 1.5) = 1 — 86.64% = 13.36% 
Por outro lado, t = gu ~ t(8). Assim: 
Pr (|X — u| > 0.58) = Pr (|t| > 1.5) = 2 TDist (—1.5; 8) = 17.20% 


(A aproximação linear a partir da tabela daria 17.78%). Assim, Pr (X — p| > 0.50) é um pouco menor do que 
Pr (|X — u| > 0.55). 
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Ex. 30 a) Note que G = 2aZ. Então 


E (G) = 2E (Z) = — 


Var (G) = 4a° Var (Z) = —a 
Assim, G é viesado, com viés Viés (G) = SE — a = —&. Também 


2 2 
P T S T 2 a Ira” 2. 
EQM (G;a) = (Viés(G)) + Var (G) = 81 + a qu 


b) Da tabela, temos que 
Pr (0.143 < Z < 0.767) = 80% 


Isto é G 
Pr (0143 < E < 0.767) = 80% 


G G 
i (sua Ra mis) SUA 


Assim 


isto é, o intervalo de confiança pedido é 


G G 
I 3 = — 
e) (rem z) 
Neste caso específico, temos G = 2.47, então: 


IC (a; 80%) = (1.61, 8.64) 


que, convenhamos, é um intervalo bem ruinzinho (também pudera, apenas duas amostras!). 
Alternativa: se você não fizer questão de um intervalo centrado, pode também tomar 


Pr (0.224 < Z < 1) = 80% 
para obter 
G G 


que é um intervalo bem menor do que o anterior. 


